商湯世界模型秘訣,「日日新」實(shí)現(xiàn)AI大一統(tǒng)!原生融合模型破紀(jì)錄雙冠王
原標(biāo)題:商湯世界模型秘訣,「日日新」實(shí)現(xiàn)AI大一統(tǒng)!原生融合模型破紀(jì)錄雙冠王
文章來源:新智元
內(nèi)容字?jǐn)?shù):9062字
商湯“日日新”:原生融合大模型引領(lǐng)AI 2.0新紀(jì)元
本文總結(jié)了新智元報(bào)道中關(guān)于商湯科技“日日新”原生融合大模型的要點(diǎn),該模型在多模態(tài)領(lǐng)域取得突破性進(jìn)展,引領(lǐng)AI邁向“大一統(tǒng)”時(shí)代。
原生融合多模態(tài):AI 2.0的必由之路
文章指出,大模型發(fā)展瓶頸在于單一模態(tài)處理能力的局限性。商湯“日日新”通過原生融合多模態(tài)技術(shù),實(shí)現(xiàn)了單一模型同時(shí)處理文本、圖像、視頻等多種信息,突破了傳統(tǒng)多模態(tài)模型分立的現(xiàn)狀,讓AI具備“看”和“想”的能力,從而解決更復(fù)雜的問題。
“日日新”的驚艷表現(xiàn):多場(chǎng)景應(yīng)用
文章列舉了“日日新”在多個(gè)場(chǎng)景的實(shí)際應(yīng)用,例如:識(shí)別各種手寫體詩(shī)歌并翻譯;批改作業(yè),精準(zhǔn)指出錯(cuò)誤并舉一反三;分析繪畫作品特點(diǎn)并提出改進(jìn)建議;識(shí)別圖像中的歷史人物和典故;分析游戲截圖并推斷電腦配置;理解表情包含義等。這些例子展示了“日日新”強(qiáng)大的跨模態(tài)理解和分析能力。
技術(shù)突破:融合模態(tài)數(shù)據(jù)合成與融合任務(wù)增強(qiáng)訓(xùn)練
商湯“日日新”的成功,得益于兩項(xiàng)關(guān)鍵技術(shù):融合模態(tài)數(shù)據(jù)合成和融合任務(wù)增強(qiáng)訓(xùn)練。面對(duì)數(shù)據(jù)匱乏的挑戰(zhàn),商湯通過逆渲染、基于混合語義的圖像生成等方法合成大量融合模態(tài)數(shù)據(jù),構(gòu)建了圖文模態(tài)之間的交互橋梁。此外,通過構(gòu)建一系列跨模態(tài)任務(wù)(涵蓋交互、多模態(tài)文檔分析、場(chǎng)景理解等),進(jìn)行增強(qiáng)訓(xùn)練,提升了模型對(duì)多模態(tài)信息整合理解分析的能力,并形成了對(duì)業(yè)務(wù)場(chǎng)景有效的響應(yīng)能力。
成本優(yōu)勢(shì)與未來展望
文章強(qiáng)調(diào),商湯“日日新”的原生融合多模態(tài)技術(shù)路線,在訓(xùn)練成本方面具有顯著優(yōu)勢(shì),僅比同量級(jí)LLM增加約20%。這得益于多階段訓(xùn)練的策略,將語言模型和多模態(tài)模型的訓(xùn)練合并在了一起。未來,商湯將繼續(xù)探索融合模態(tài)技術(shù),拓展其在辦公、金融、自動(dòng)駕駛、城市治理等領(lǐng)域的應(yīng)用,并進(jìn)一步探索世界模型的可能性。
雙料冠軍:實(shí)力認(rèn)證
文章最后指出,“日日新”融合大模型在SuperCLUE 2024年度榜單中,以68.3高分與DeepSeek V3并列國(guó)內(nèi)榜首,并在OpenCompass多模態(tài)評(píng)測(cè)中力壓GPT-4o,獲得雙料冠軍,展現(xiàn)了其在語言和多模態(tài)領(lǐng)域的領(lǐng)先地位。
總而言之,商湯“日日新”原生融合大模型的成功,標(biāo)志著AI 2.0時(shí)代多模態(tài)融合技術(shù)取得重大突破,為未來AI發(fā)展提供了新的方向和可能性。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。