商湯披露:50篇論文入選CVPR 2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:商湯披露:50篇論文入選CVPR 2024
關(guān)鍵字:騰訊,模型,商湯,論文,視覺
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
一水 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAICVPR正在進(jìn)行中,中國(guó)科研力量再次成為場(chǎng)內(nèi)外焦點(diǎn)之一。
日前,AI頂會(huì)常客選手商湯科技,已經(jīng)披露了今年成績(jī)單:50篇論文入選,其中還有9篇被錄用為Oral、Highlight。
這些成果,既是商湯科研和技術(shù)實(shí)力的最新證明,也透露著這家知名AI公司對(duì)于產(chǎn)業(yè)趨勢(shì)和技術(shù)趨勢(shì)的預(yù)判——
論文涉及自動(dòng)駕駛、機(jī)器人等前沿方向。
大規(guī)模視覺語(yǔ)言基礎(chǔ)模型:InternVL商湯科技、上海AI實(shí)驗(yàn)室等聯(lián)合設(shè)計(jì)了一個(gè)大規(guī)模的視覺語(yǔ)言基礎(chǔ)模型——InternVL。
首次將大規(guī)模視覺編碼器擴(kuò)展到60億個(gè)參數(shù),與LLM進(jìn)行對(duì)齊,在準(zhǔn)確性、速度和穩(wěn)定性之間取得了良好平衡。
論文:https://arxiv.org/abs/2312.14238
為了有效訓(xùn)練大規(guī)模視覺語(yǔ)言基礎(chǔ)模型,InternVL還引入了一種漸進(jìn)式圖像-文本對(duì)齊策略。
該策略最大限度地利用網(wǎng)絡(luò)規(guī)模的噪聲圖像-文本數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí),并將細(xì)粒度、高質(zhì)量的數(shù)據(jù)用于生成學(xué)習(xí)。
通過驗(yàn)證,相較于當(dāng)前最先進(jìn)的視覺基礎(chǔ)模型和多模態(tài)大語(yǔ)言模型,InternVL在廣泛的通用視覺語(yǔ)言任務(wù)上能夠取得更領(lǐng)先的結(jié)果。
另外,
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破