國產(chǎn)多模態(tài)卷上下文長度:原生支持24K圖文輸入輸出,圖像視頻理解對標GPT4V
AIGC動態(tài)歡迎閱讀
原標題:國產(chǎn)多模態(tài)卷上下文長度:原生支持24K圖文輸入輸出,圖像視頻理解對標GPT4V
關鍵字:模型,圖像,視頻,能力,代碼
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
陳林 投稿自 凹非寺量子位 | 公眾號 QbitAI國產(chǎn)多模態(tài)大模型,也開始卷上下文長度。
書生·浦語靈筆(InternLM-XComposer)多模態(tài)大模型升級2.5版本——
原生支持24K多模態(tài)圖文上下文,超過20輪的圖文交互,具備圖像視頻理解、網(wǎng)頁創(chuàng)作、圖文寫作等多項功能。
該開源模型一出,一度在Hugging Face登上熱榜第五。
作為8B量級性能最優(yōu)秀的多模態(tài)大模型之一,它在多項評測性能上對標GPT4V和Gemini Pro。
而除了支持長上下文輸入,InternLM-XComposer 2.5版本(以下簡稱IXC 2.5)同時訓練了長序列輸出能力,模型支持高質(zhì)量網(wǎng)頁創(chuàng)作和文章生成。
兼容三種多模態(tài)理解能力IXC 2.5同時兼顧了多模態(tài)模型的理解和內(nèi)容輸出能力,主要包括三種多模態(tài)理解能力。
包括超過4K分辨率的圖像理解、多輪多圖超長對話、精細視頻內(nèi)容分析。
來具體看看大模型實力如何。
高分辨率圖像理解,它支持分析文檔、網(wǎng)頁、圖表等信息豐富的超高清圖像。
比如扔給它之前的文章,圖像分辨率為1312×22619像素,并詢問IXC 2.5關于截圖內(nèi)容的問題。
嗯,還能知道是量子位
原文鏈接:國產(chǎn)多模態(tài)卷上下文長度:原生支持24K圖文輸入輸出,圖像視頻理解對標GPT4V
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: