全球首個(gè)跨洲協(xié)作的大模型震撼發(fā)布,全流程開源引領(lǐng)AI新紀(jì)元!
30 位貢獻(xiàn)者,112 臺(tái) H100 GPU,用時(shí) 42 天。

原標(biāo)題:美歐亞三洲開發(fā)者聯(lián)手,全球首個(gè)組團(tuán)訓(xùn)練的大模型來了,全流程開源
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5888字
去中心化訓(xùn)練的突破:Prime Intellect發(fā)布10B模型
2023年11月22日,Prime Intellect宣布成功訓(xùn)練出一個(gè)10B參數(shù)的AI模型——INTELLECT-1,并通過去中心化方式開源了相關(guān)技術(shù)和數(shù)據(jù)。這一成就被認(rèn)為是歷史上首個(gè)以去中心化形式訓(xùn)練的大型模型,標(biāo)志著大型模型訓(xùn)練的范式發(fā)生了重要改變。
1. 關(guān)鍵技術(shù)與訓(xùn)練過程
INTELLECT-1基于Llama-3架構(gòu),在經(jīng)過精心篩選的1萬億token數(shù)據(jù)集上訓(xùn)練而成,訓(xùn)練過程持續(xù)了42天,使用了112臺(tái)H100 GPU,涉及全球30位貢獻(xiàn)者。該團(tuán)隊(duì)在訓(xùn)練中實(shí)現(xiàn)了83%的總體計(jì)算利用率,尤其在美國節(jié)點(diǎn)上更是高達(dá)96%。
2. 訓(xùn)練框架與方法
Prime Intellect采用了名為“Prime”的去中心化訓(xùn)練框架,該框架是基于其開發(fā)的OpenDiLoCo技術(shù)。Prime框架支持容錯(cuò)訓(xùn)練,能夠動(dòng)態(tài)管理計(jì)算資源,優(yōu)化全球分布式GPU網(wǎng)絡(luò)中的通信和路由。通過偽梯度的int8量化與優(yōu)化器同步,團(tuán)隊(duì)成功將通信帶寬要求降低了多達(dá)2000倍。
3. 模型性能與能力
盡管INTELLECT-1在某些測(cè)試中表現(xiàn)出色,但在漢語能力和幻覺現(xiàn)象方面仍存在不足。AI社區(qū)對(duì)該模型的整體表現(xiàn)給予了積極評(píng)價(jià),認(rèn)為其在大規(guī)模去中心化訓(xùn)練方面展現(xiàn)出巨大的潛力。
4. 未來計(jì)劃與目標(biāo)
Prime Intellect的長期目標(biāo)是實(shí)現(xiàn)開源AGI。團(tuán)隊(duì)計(jì)劃擴(kuò)大全球計(jì)算網(wǎng)絡(luò),激勵(lì)社區(qū)參與,并進(jìn)一步優(yōu)化去中心化訓(xùn)練架構(gòu),以支持更大的模型。這一系列努力旨在防止AI能力被少數(shù)組織壟斷,推動(dòng)更開放和協(xié)作的AI發(fā)展。
總之,INTELLECT-1的發(fā)布不僅是技術(shù)上的突破,更是去中心化訓(xùn)練方法的一次成功嘗試,展現(xiàn)了未來AI發(fā)展的新方向。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)