字節(jié)攜港大南大升級 LLaVA-NeXT:借 LLaMA-3 和 Qwen-1.5 脫胎換骨,輕松追平 GPT-4V

AIGC動態(tài)歡迎閱讀
原標(biāo)題:字節(jié)攜港大南大升級 LLaVA-NeXT:借 LLaMA-3 和 Qwen-1.5 脫胎換骨,輕松追平 GPT-4V
關(guān)鍵字:騰訊,模型,字節(jié)跳動,侵權(quán),解讀
文章來源:算法邦
內(nèi)容字?jǐn)?shù):7543字
內(nèi)容摘要:
【2024騰訊云生成式AI產(chǎn)業(yè)應(yīng)用峰會】定檔5月17日,完整議程已公布,騰訊集團高級執(zhí)行副總款、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生等6位騰訊云高管、負(fù)責(zé)人聚焦大模型落地場景需求,將發(fā)布混元大模型最新進展,以及15+款重磅產(chǎn)品,歡迎報名預(yù)約直播。文章轉(zhuǎn)載自公眾號:AI科技大本營,本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。
2023 年,威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究人員共同開發(fā)的 LLaVA 首次亮相,彼時它被視為一個端到端訓(xùn)練的大型多模態(tài)模型,展現(xiàn)了在視覺與語言融合領(lǐng)域的潛力。今年 1 月 30 日,LLaVA 的后續(xù)版本 LLaVA-NeXT 推出,它利用了當(dāng)時最強的 LLM——Yi-34B,進一步增強了多模態(tài)理解、OCR(光學(xué)字符識別)和世界知識等方面的能力,甚至在一些基準(zhǔn)測試上與 Gemini-Pro 和 GPT-V 相媲美。在全世界默默等待 GPT-5 消息的這幾個月里,開源社區(qū)出現(xiàn)了 LLaMA-3 和 Qwen-1.5 等語言能力更為強大的模型,阿里的 Qwen 更是在昨天發(fā)布了 2.5 版本,劍指 GPT-4。因此,LLaVA-NeXT 的研究團隊開
原文鏈接:字節(jié)攜港大南大升級 LLaVA-NeXT:借 LLaMA-3 和 Qwen-1.5 脫胎換骨,輕松追平 GPT-4V
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。

粵公網(wǎng)安備 44011502001135號