AIGC動態歡迎閱讀
原標題:參數量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
關鍵字:模型,圖像,研究者,視覺,語言
文章來源:機器之心
內容字數:8880字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。多模態 AI 系統的特點在于能夠處理和學習包括自然語言、視覺、音頻等各種類型的數據,從而指導其行為決策。近期,將視覺數據納入大型語言模型 (如 GPT-4V) 的研究取得了重要進展,但如何有效地將圖像信息轉化為 AI 系統的可執行動作仍面臨挑戰。
在最近的一篇論文中,研究者提出了一種專為 AI 應用設計的多模態模型,引入了「functional token」的概念。
論文標題:Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
論文鏈接:https://arxiv.org/pdf/2404.11459.pdf
模型權重和推理代碼:https://www.nexa
原文鏈接:參數量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...