AIGC動態歡迎閱讀
原標題:趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
關鍵字:數據,視覺,指令,模型,樣本
文章來源:機器之心
內容字數:3623字
內容摘要:
機器之心報道
機器之心編輯部去年 4 月,威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布了 LLaVA(Large Language and Vision Assistant)。盡管 LLaVA 是用一個小的多模態指令數據集訓練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結果。10 月,LLaVA-1.5 重磅發布,通過對原始 LLaVA 的簡單修改,在 11 個基準上刷新了 SOTA。
現在,研究團隊宣布推出 LLaVA-1.6,主要改進了模型在推理、OCR 和世界知識方面的性能。LLaVA-1.6 甚至在多項基準測試中超越了 Gemini Pro。demo 地址:https://llava.hliu.cc/
項目地址:https://github.com/haotian-liu/LLaVA
與 LLaVA-1.5 相比,LLaVA-1.6 有如下幾個改進:
將輸入圖像分辨率提升 4 倍,支持三種寬高比,最高可達 672×672、336×1344、1344×336 分辨率。這使得 LLaVA-1.6 能夠掌握更多的視覺細節。
通過改進的視覺指令調整數據混合,
原文鏈接:趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...