dots.llm1

dots.llm1 – 小紅書hi lab開源的文本大模型

dots.llm1

dots.llm1 是小紅書 hi lab 團隊傾力打造的中等規模 Mixture of Experts (MoE) 文本大模型，擁有 1420 億參數，激活參數為 140 億。它在 11.2T 高質量 token 數據上進行預訓練，并采用了高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 優化技術，在多語言文本生成、復雜指令遵循、知識問答、數學與代碼推理、多輪對話等任務上表現出色，與 Qwen2.5-72B 等模型相比具有競爭力。

dots.llm1：開啟智能文本新篇章

dots.llm1，由小紅書 hi lab 團隊精心研發，是一款中等規模的 Mixture of Experts (MoE) 文本大模型。它不僅擁有龐大的參數規模（1420 億），更憑借創新的架構設計和卓越的訓練技術，在各項文本任務中展現出強大的能力。dots.llm1 致力于為用戶提供更智能、更便捷的文本處理體驗。

核心功能一覽

多語言文本生成： 支持流暢的中英文文本創作，滿足多樣化的內容需求，例如撰寫文章、生成創意文案等。
復雜指令理解： 能夠準確理解并執行復雜的指令，完成各種特定任務，包括數據處理、代碼生成等。
知識問答服務： 提供精準的知識問答，幫助用戶快速獲取所需信息，拓展知識邊界。
數學與代碼推理： 具備強大的數學計算和代碼推理能力，能夠解決復雜的數學問題并編寫簡單的代碼。
多輪對話互動： 支持多輪對話，與用戶進行自然流暢的交流，理解上下文，給出恰當的回應。

技術亮點

MoE 架構： 采用基于 Decoder-only Transformer 的 MoE 架構，每個 token 最多激活 6 個專家，共有 128 個專家。這種設計使得模型在 1420 億參數中，每次前向傳播只激活 140 億參數，有效提高了計算效率。
高效訓練框架： 依托 11.2T 高質量 token 數據進行預訓練，數據來源包括 Common Crawl 和自有 Spider 抓取的 web 數據，經過多輪清洗和過濾，確保數據質量。結合 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 實現，顯著提升訓練效率。
精細微調： 采用兩階段監督微調策略。首先對全量數據進行基礎訓練，釋放模型潛力；然后針對特定領域（如數學與代碼）引入拒絕采樣微調，進一步提升模型推理性能。
學習率與超參優化： 采用 WSD 學習率調度方式，在學習率穩定階段進行訓練，并在退火階段逐步降低學習率。同時，在訓練過程中調整 batch size 等超參數，確保訓練過程穩定。

產品官網

您可以訪問以下鏈接了解更多關于 dots.llm1 的信息：