30 位貢獻者,112 臺 H100 GPU,用時 42 天。
去中心化訓練的突破:Prime Intellect發布10B模型
2023年11月22日,Prime Intellect宣布成功訓練出一個10B參數的AI模型——INTELLECT-1,并通過去中心化方式開源了相關技術和數據。這一成就被認為是歷史上首個以去中心化形式訓練的大型模型,標志著大型模型訓練的范式發生了重要改變。
1. 關鍵技術與訓練過程
INTELLECT-1基于Llama-3架構,在經過精心篩選的1萬億token數據集上訓練而成,訓練過程持續了42天,使用了112臺H100 GPU,涉及全球30位貢獻者。該團隊在訓練中實現了83%的總體計算利用率,尤其在美國節點上更是高達96%。
2. 訓練框架與方法
Prime Intellect采用了名為“Prime”的去中心化訓練框架,該框架是基于其開發的OpenDiLoCo技術。Prime框架支持容錯訓練,能夠動態管理計算資源,優化全球分布式GPU網絡中的通信和路由。通過偽梯度的int8量化與優化器同步,團隊成功將通信帶寬要求降低了多達2000倍。
3. 模型性能與能力
盡管INTELLECT-1在某些測試中表現出色,但在漢語能力和幻覺現象方面仍存在不足。AI社區對該模型的整體表現給予了積極評價,認為其在大規模去中心化訓練方面展現出巨大的潛力。
4. 未來計劃與目標
Prime Intellect的長期目標是實現開源AGI。團隊計劃擴大全球計算網絡,激勵社區參與,并進一步優化去中心化訓練架構,以支持更大的模型。這一系列努力旨在防止AI能力被少數組織壟斷,推動更開放和協作的AI發展。
總之,INTELLECT-1的發布不僅是技術上的突破,更是去中心化訓練方法的一次成功嘗試,展現了未來AI發展的新方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...