AIGC動態歡迎閱讀
原標題:8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare
關鍵字:模型,數據,文本,字節跳動,性能
文章來源:機器之心
內容字數:8514字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。近期,多模態大模型 (MLLM) 在文本中心的 VQA 領域取得了顯著進展,尤其是多個閉源模型,例如:GPT4V 和 Gemini,甚至在某些方面展現了超越人類能力的表現。但是開源模型的性能還遠遠落后于閉源模型,最近許多開創性的研究,例如:MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已開始關注指令微調數據不足的問題。盡管這些努力取得了顯著的效果,但仍存在一些問題,圖像描述數據和 VQA 數據屬于不同的領域,圖像內容呈現的粒度和范圍存在不一致性。此外,合成數據的規模相對較小,使得 MLLM 無法充分發揮潛力。論文標題:TextSquare: Scaling up Text-Centric Visual Instruction Tuning
原文鏈接:8B文字多模態大模型指標逼近GPT4V,字節、華師、華科聯合提出TextSquare
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...