年輕人的第一個多模態(tài)大模型:1080Ti輕松運行,已開源在線可玩
AIGC動態(tài)歡迎閱讀
原標題:年輕人的第一個多模態(tài)大模型:1080Ti輕松運行,已開源在線可玩
關鍵字:報告,詞表,視覺,模型,準確率
文章來源:量子位
內(nèi)容字數(shù):2814字
內(nèi)容摘要:
Vary-toy團隊 投稿量子位 | 公眾號 QbitAI一款名為Vary-toy的“年輕人的第一個多模態(tài)大模型”來了!
模型大小不到2B,消費級顯卡可訓練,GTX1080ti 8G的老顯卡輕松運行。
想將一份文檔圖片轉(zhuǎn)換成Markdown格式?以往需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟。
現(xiàn)在只需一句話命令:
無論中英文,圖片中的大段文字都能分分鐘提取出來:
對一張圖做對象檢測,還是能給出具體坐標的那種:
這項研究由來自曠視、國科大、華中大的研究人員共同提出。
據(jù)介紹,Vary-toy雖小,但卻幾乎涵蓋了目前LVLM(大型視覺語言模型)主流研究中的所有能力:文檔OCR識別(Document OCR)、視覺定位(Visual Grounding)、圖像描述(Image Caption)、視覺問答(VQA)。
現(xiàn)在,Vary-toy代碼和模型均已開源,并有在線demo可試玩。
網(wǎng)友一邊表示感興趣,一邊關注點在于舊·GTX1080,心情belike:
“縮小版”Vary其實,早在去年12月Vary團隊就發(fā)布了Vary的首項研究成果“Vary: Scaling up
原文鏈接:年輕人的第一個多模態(tài)大模型:1080Ti輕松運行,已開源在線可玩
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...