測試時計算Scaling Law已驗證
原標題:推理模型新路線開源!與DeepSeek截然不同,拋棄思維鏈不用人類語言思考
文章來源:量子位
內容字數:2493字
開源推理大模型Huginn:拋棄長思維鏈,在高維潛空間推理
近日,來自馬克思普朗克研究所、馬里蘭大學等團隊的研究人員提出了一種全新的開源推理大模型架構——Huginn,該架構與Deepseek-R1和OpenAI o1等模型截然不同,它拋棄了依賴長思維鏈和人類語言的推理方式,轉而直接在連續的高維潛空間中進行推理。
1. 核心創新:潛空間推理 Huginn模型的核心創新在于其在高維潛空間中進行推理。模型通過對輸入數據進行嵌入,將其映射到一個高維的潛在空間,然后在這個空間中利用循環計算單元來修改狀態,最終從潛空間解碼得到預測結果。這種方法允許模型自適應地花費更多計算來思考更長時間,并能捕捉到難以用語言表達的推理類型。
2. 模型架構:三段式設計 Huginn的架構由三部分組成:Prelude(前奏)、Recurrent Block(循環塊)和Coda(尾聲)。Prelude將輸入數據嵌入到潛空間;Recurrent Block是循環計算單元,在潛空間中迭代修改狀態,并自適應調整迭代次數;Coda則從潛空間解碼,并包含模型的預測頭。
3. 推理軌跡可視化:獨特的幾何模式 研究人員通過可視化模型在潛空間中的推理軌跡,發現模型對不同token的處理方式存在差異。對于一些簡單token,隱狀態會快速收斂到穩定點;而對于關鍵token(例如數學問題中的數字),隱狀態會形成復雜的圓形軌道;還有一些token的隱狀態會沿特定方向“滑動”,可能用于計數循環次數。這些豐富的幾何模式表明模型正在學習利用潛空間的高維性質以新的方式進行推理。
4. 優勢與效率:無需特殊訓練數據,計算效率高 Huginn模型具有以下幾個優勢:無需任何專門的訓練數據;可以在很小的上下文窗口下工作;能夠捕捉到難以用語言表達的推理類型。此外,盡管模型在訓練時計算量相當于傳統的32B模型,但其3.5B參數的規模卻能與7B參數的模型相媲美,展現了其高效的計算能力。
5. 訓練細節:超算助力,一次性訓練 Huginn模型使用了美國橡樹嶺實驗室的Frontier超算進行訓練,使用了8個AMD GPU節點(4096塊GPU),沒有使用英偉達體系。研究團隊只進行了一次大規模訓練,在800B tokens數據上預訓練了一個3.5B參數的模型,沒有進行post/mid-training過程。
6. 未來展望:潛在的應用和研究方向 Huginn模型的出現為大模型推理開辟了新的方向,其在潛空間中進行推理的方法也引發了業界對OpenAI o3等模型的猜測。一些研究人員已經開始嘗試結合Huginn的潛空間推理能力和CoT(思維鏈)的可讀性,探索新的研究方向。
總而言之,Huginn模型的創新之處在于其拋棄了傳統的長思維鏈推理范式,轉而采用在高維潛空間中進行推理的新方法。這種方法不僅提高了模型的推理效率和能力,也為未來大模型的研究提供了新的思路和啟發。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
相關文章
