AIGC動態歡迎閱讀
原標題:橫掃13個視覺語言任務!哈工深發布多模態大模型「九天」,性能直升5%
關鍵字:視覺,任務,圖像,模型,語言
文章來源:新智元
內容字數:9346字
內容摘要:新智元報道編輯:LRS【新智元導讀】哈工深發布全新多模態大語言模型九天(JiuTian-LION),融合細粒度空間感知和高層語義視覺知識,在13個評測任務上實現了sota性能。為了應對多模態大語言模型中視覺信息提取不充分的問題,哈爾濱工業大學(深圳)的研究人員提出了雙層知識增強的多模態大語言模型-九天(JiuTian-LION)。論文鏈接: https://arxiv.org/abs/2311.11860GitHub: https://github.com/rshaojimmy/JiuTian項目主頁: https://rshaojimmy.github.io/Projects/JiuTian-LION與現有的工作相比,九天首次分析了圖像級理解任務和區域級定位任務之間的內部沖突,提出了分段指令微調策略和混合適配器來實現兩種任務的互相提升。通過注入細粒度空間感知和高層語義視覺知識,九天實現了…
原文鏈接:點此閱讀原文:橫掃13個視覺語言任務!哈工深發布多模態大模型「九天」,性能直升5%
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...