原標題:全模態對齊終于有了開源參考:北大團隊發布 align-anything,數據、算法、評估一網打盡!
文章來源:夕小瑤科技說
內容字數:14675字
北大對齊小組:推動全模態大模型對齊研究的開源貢獻
本文總結了北京大學對齊小組在全模態大模型對齊研究方面的最新進展,重點介紹了其開源項目“align-anything”及其成果。
全模態大模型對齊的挑戰與機遇
隨著多模態大模型(如GPT-4o、Chameleon、LLaMA-3.2-Vision)的興起,如何將這些模型與人類意圖對齊成為關鍵挑戰。 全模態信息增加了輸入輸出空間的復雜性,也加劇了模型幻覺等問題。北大對齊小組致力于解決這一難題,并為此做出了重要貢獻。
Beaver-Vision-11B:優越的對齊性能
基于LLaMA-3.2-Vision,北大對齊小組通過后訓練微調得到了Beaver-Vision-11B模型。該模型在對齊性和指令遵循性方面超越了Meta官方微調的LLaMA-3.2-11B-Vision-Instruct,在圖像識別和推理方面也展現出更強的能力,例如準確識別并解釋圖片中拉面餐廳的名稱。
align-anything:全流程開源的貢獻
為了促進社區的多模態對齊研究,北大對齊小組開源了“align-anything”項目,涵蓋數據集、算法、評估和代碼庫四大方面。 其中,align-anything數據集包含20萬條包含人類語言反饋和二元偏好的全模態數據(圖、文、視頻、語音),其高質量和細粒度的標注是其一大特色。
從語言反饋中學習 (LLF):提升對齊效率
北大對齊小組提出了“從語言反饋中學習”(LLF)算法,利用豐富的語言反饋信息來提升多模態大模型的對齊性能。該算法通過評論模型、模型自提升、獎勵建模和強化學習微調四個步驟,有效地利用語言反饋,并展現出優于傳統二元偏好數據的效率。
全模態評估:模態聯動與模態選擇
為了全面評估全模態模型的性能,“align-anything”項目還提出了模態聯動和模態選擇評估方法。模態聯動評估模型是否能夠整合不同模態信息并保持一致性;模態選擇評估模型是否能夠根據問題選擇合適的模態進行回答。
align-anything框架:模塊化、擴展性和易用性
align-anything框架支持多種模態(文生文、文生圖、文圖生文等)和對齊算法(SFT、DPO、PPO等),具有高度的模塊化、擴展性和易用性。其設計理念是模態與算法解耦,方便用戶擴展和定制。該框架還支持多種開源和閉源對齊評估基準。
基于align-anything框架的模型微調
北大對齊小組利用align-anything框架對Chameleon和LLaMA-3.2-11B-Vision模型進行了微調,并開源了改進后的模型(AA-Chameleon-7B-Plus和Beaver-Vision-11B),這些模型在多模態任務上取得了顯著的提升。
總而言之,北大對齊小組的“align-anything”項目為全模態大模型的對齊研究做出了重要貢獻,其開源的資源和方法將有助于推動該領域的發展。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:低負擔解碼AI世界,硬核也可愛!聚集35萬AI發燒友、開發者和從業者,廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189