橫掃13個(gè)視覺語言任務(wù)!哈工深發(fā)布多模態(tài)大模型「九天」,性能直升5%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:橫掃13個(gè)視覺語言任務(wù)!哈工深發(fā)布多模態(tài)大模型「九天」,性能直升5%
關(guān)鍵字:視覺,任務(wù),圖像,模型,語言
文章來源:新智元
內(nèi)容字?jǐn)?shù):9346字
內(nèi)容摘要:新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】哈工深發(fā)布全新多模態(tài)大語言模型九天(JiuTian-LION),融合細(xì)粒度空間感知和高層語義視覺知識(shí),在13個(gè)評(píng)測(cè)任務(wù)上實(shí)現(xiàn)了sota性能。為了應(yīng)對(duì)多模態(tài)大語言模型中視覺信息提取不充分的問題,哈爾濱工業(yè)大學(xué)(深圳)的研究人員提出了雙層知識(shí)增強(qiáng)的多模態(tài)大語言模型-九天(JiuTian-LION)。論文鏈接: https://arxiv.org/abs/2311.11860GitHub: https://github.com/rshaojimmy/JiuTian項(xiàng)目主頁: https://rshaojimmy.github.io/Projects/JiuTian-LION與現(xiàn)有的工作相比,九天首次分析了圖像級(jí)理解任務(wù)和區(qū)域級(jí)定位任務(wù)之間的內(nèi)部沖突,提出了分段指令微調(diào)策略和混合適配器來實(shí)現(xiàn)兩種任務(wù)的互相提升。通過注入細(xì)粒度空間感知和高層語義視覺知識(shí),九天實(shí)現(xiàn)了…
原文鏈接:點(diǎn)此閱讀原文:橫掃13個(gè)視覺語言任務(wù)!哈工深發(fā)布多模態(tài)大模型「九天」,性能直升5%
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。