NoteLLM – 小紅書推出的筆記推薦多模態大模型框架
NoteLLM是什么
NoteLLM 是小紅書推出的一個多模態大型語言模型框架,專注于筆記推薦。該框架利用生成筆記的壓縮嵌入和自動生成標簽類別的能力,結合大型語言模型(LLM)的深厚語義理解,運用對比學習和指令微調技術,從而顯著提高筆記推薦的準確性和相關性。升級版的 NoteLLM-2 在原有基礎上引入了多模態輸入,通過端到端微調策略,結合視覺編碼器與 LLM,成功解決了視覺信息被忽視的問題。NoteLLM-2 通過引入多模態上下文學習(mICL)和晚期融合(late fusion)機制,進一步增強了多模態表示能力,極大地提升了多模態推薦任務的性能,其框架在小紅書平臺上展現出強大的推薦能力,并已在實際推薦系統中得到了應用。
NoteLLM的主要功能
- 自動生成標簽和類別:為每條筆記生成相關標簽和類別,提升筆記嵌入的質量。
- 優化用戶體驗:通過更精準的推薦,增強用戶在平臺上的參與度與滿意度。
- 多模態筆記推薦:綜合文本與圖像信息,生成更為全面的筆記表示,提升多模態推薦的準確性與相關性。
- 克服視覺信息忽視問題:通過多模態上下文學習(mICL)和晚期融合(late fusion)機制,增強視覺信息的表達能力。
NoteLLM的技術原理
- 筆記壓縮提示:設計特定的提示模板,將筆記內容壓縮為特殊標記,同時生成相應的標簽和類別。
- 對比學習:基于用戶行為數據中的共現關系,構建相關筆記對,通過對比學習來訓練模型,增強筆記嵌入的語義表示。
- 指令微調:利用指令微調技術,使 LLM 更加準確地理解任務需求,從而生成高質量的標簽和類別。
- 多模態上下文學習:將多模態內容拆分為視覺和文本兩個部分,分別壓縮為兩個模態的壓縮詞,并通過對比學習平衡模態之間的注意力。
- 晚期融合:在 LLM 輸出階段直接融合視覺信息,保留更多原始視覺數據,避免因早期融合而導致的視覺信息損失。
- 端到端微調:結合現有的 LLM 和視覺編碼器,通過端到端微調,定制高效的多模態表示模型,無需預先對齊。
NoteLLM的項目地址
- GitHub倉庫:https://github.com/Applied-Machine-Learning-Lab/NoteLLM
- arXiv技術論文:
- NoteLLM:https://arxiv.org/pdf/2403.01744
- NoteLLM2:https://arxiv.org/pdf/2405.16789
NoteLLM的應用場景
- 個性化筆記推薦:依據用戶的興趣與行為,從海量筆記中精準推薦相關內容,提升用戶發現新內容的體驗。
- 冷啟動筆記推薦:幫助新發布的筆記迅速獲得曝光,基于內容的相似性進行推薦。
- 標簽和類別生成:自動生成與筆記內容相關的標簽和類別,提高內容的可檢索性,幫助用戶快速找到感興趣的內容。
- 多模態內容推薦:處理文本與圖像信息,生成更全面的筆記表示,提升多模態推薦的準確性與相關性。
- 內容創作輔助:為創作者提供創作靈感與建議,例如關鍵詞、標簽及相關筆記推薦,助力內容創作。
常見問題
如對 NoteLLM 有任何疑問,歡迎訪問我們的 GitHub 倉庫或查閱相關的 arXiv 論文獲取更多信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...