國(guó)產(chǎn)多模態(tài)卷上下文長(zhǎng)度：原生支持24K圖文輸入輸出，圖像視頻理解對(duì)標(biāo)GPT4V

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：國(guó)產(chǎn)多模態(tài)卷上下文長(zhǎng)度：原生支持24K圖文輸入輸出，圖像視頻理解對(duì)標(biāo)GPT4V
關(guān)鍵字：模型,圖像,視頻,能力,代碼
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

陳林投稿自凹非寺量子位 | 公眾號(hào) QbitAI國(guó)產(chǎn)多模態(tài)大模型，也開(kāi)始卷上下文長(zhǎng)度。
書(shū)生·浦語(yǔ)靈筆（InternLM-XComposer）多模態(tài)大模型升級(jí)2.5版本——
原生支持24K多模態(tài)圖文上下文，超過(guò)20輪的圖文交互，具備圖像視頻理解、網(wǎng)頁(yè)創(chuàng)作、圖文寫(xiě)作等多項(xiàng)功能。
該開(kāi)源模型一出，一度在Hugging Face登上熱榜第五。
作為8B量級(jí)性能最優(yōu)秀的多模態(tài)大模型之一，它在多項(xiàng)評(píng)測(cè)性能上對(duì)標(biāo)GPT4V和Gemini Pro。
而除了支持長(zhǎng)上下文輸入，InternLM-XComposer 2.5版本（以下簡(jiǎn)稱IXC 2.5）同時(shí)訓(xùn)練了長(zhǎng)序列輸出能力，模型支持高質(zhì)量網(wǎng)頁(yè)創(chuàng)作和文章生成。
兼容三種多模態(tài)理解能力IXC 2.5同時(shí)兼顧了多模態(tài)模型的理解和內(nèi)容輸出能力，主要包括三種多模態(tài)理解能力。
包括超過(guò)4K分辨率的圖像理解、多輪多圖超長(zhǎng)對(duì)話、精細(xì)視頻內(nèi)容分析。
來(lái)具體看看大模型實(shí)力如何。
高分辨率圖像理解，它支持分析文檔、網(wǎng)頁(yè)、圖表等信息豐富的超高清圖像。
比如扔給它之前的文章，圖像分辨率為1312×22619像素，并詢問(wèn)IXC 2.5關(guān)于截圖內(nèi)容的問(wèn)題。
嗯，還能知道是量子位

原文鏈接：國(guó)產(chǎn)多模態(tài)卷上下文長(zhǎng)度：原生支持24K圖文輸入輸出，圖像視頻理解對(duì)標(biāo)GPT4V