參數(shù)量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:參數(shù)量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
關(guān)鍵字:模型,圖像,研究者,視覺,語言
文章來源:機器之心
內(nèi)容字?jǐn)?shù):8880字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。多模態(tài) AI 系統(tǒng)的特點在于能夠處理和學(xué)習(xí)包括自然語言、視覺、音頻等各種類型的數(shù)據(jù),從而指導(dǎo)其行為決策。近期,將視覺數(shù)據(jù)納入大型語言模型 (如 GPT-4V) 的研究取得了重要進(jìn)展,但如何有效地將圖像信息轉(zhuǎn)化為 AI 系統(tǒng)的可執(zhí)行動作仍面臨挑戰(zhàn)。
在最近的一篇論文中,研究者提出了一種專為 AI 應(yīng)用設(shè)計的多模態(tài)模型,引入了「functional token」的概念。
論文標(biāo)題:Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
論文鏈接:https://arxiv.org/pdf/2404.11459.pdf
模型權(quán)重和推理代碼:https://www.nexa
原文鏈接:參數(shù)量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺