年輕人的第一個多模態大模型：1080Ti輕松運行，已開源在線可玩

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：年輕人的第一個多模態大模型：1080Ti輕松運行，已開源在線可玩
關鍵字：報告,詞表,視覺,模型,準確率
文章來源：量子位
內容字數：2814字

內容摘要：

Vary-toy團隊投稿量子位 | 公眾號 QbitAI一款名為Vary-toy的“年輕人的第一個多模態大模型”來了！
模型大小不到2B，消費級顯卡可訓練，GTX1080ti 8G的老顯卡輕松運行。
想將一份文檔圖片轉換成Markdown格式？以往需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟。
現在只需一句話命令：
無論中英文，圖片中的大段文字都能分分鐘提取出來：
對一張圖做對象檢測，還是能給出具體坐標的那種：
這項研究由來自曠視、國科大、華中大的研究人員共同提出。
據介紹，Vary-toy雖小，但卻幾乎涵蓋了目前LVLM（大型視覺語言模型）主流研究中的所有能力：文檔OCR識別（Document OCR）、視覺定位（Visual Grounding）、圖像描述（Image Caption）、視覺問答（VQA）。
現在，Vary-toy代碼和模型均已開源，并有在線demo可試玩。
網友一邊表示感興趣，一邊關注點在于舊·GTX1080，心情belike：
“縮小版”Vary其實，早在去年12月Vary團隊就發布了Vary的首項研究成果“Vary: Scaling up

原文鏈接：年輕人的第一個多模態大模型：1080Ti輕松運行，已開源在線可玩