預(yù)訓(xùn)練之爭(zhēng):小模型時(shí)代的逆襲與未來預(yù)言的再審視
原標(biāo)題:Ilya錯(cuò)了,預(yù)訓(xùn)練沒結(jié)束!LeCun等反擊,「小模型時(shí)代」讓奧特曼預(yù)言成真
文章來源:新智元
內(nèi)容字?jǐn)?shù):7410字
預(yù)訓(xùn)練的未來:Ilya的引發(fā)爭(zhēng)議
最近,在NeurIPS 2024大會(huì)上,前OpenAI首席科學(xué)家Ilya發(fā)表了“預(yù)訓(xùn)練結(jié)束了”的,迅速引發(fā)了業(yè)界的廣泛關(guān)注與討論。他認(rèn)為,數(shù)據(jù)的稀缺性使得大規(guī)模預(yù)訓(xùn)練難以為繼,然而這一觀點(diǎn)遭到了谷歌和Meta等公司的大佬們的反對(duì),他們認(rèn)為預(yù)訓(xùn)練并未結(jié)束,反而還有更大的潛力待挖掘。
數(shù)據(jù)資源的潛力
Ilya的觀點(diǎn)引發(fā)了對(duì)數(shù)據(jù)資源的重新審視。前Meta團(tuán)隊(duì)高級(jí)總監(jiān)Dhruv Batra指出,人類的數(shù)據(jù)并未用盡,尤其是視頻等非文本數(shù)據(jù)仍有巨大的潛力。當(dāng)前網(wǎng)絡(luò)上可用的文本數(shù)據(jù)只是冰山一角,音頻、視頻和圖像等數(shù)據(jù)同樣可以用于模型的預(yù)訓(xùn)練。
Scaling Law的變化
近年來,模型的規(guī)模和性能提升的方式發(fā)生了改變。Epoch AI的研究表明,從GPT-1到GPT-4,盡管模型規(guī)模不斷增大,但增幅逐漸減小,甚至在2023年出現(xiàn)了規(guī)模縮小的趨勢(shì)。這一現(xiàn)象的原因有多個(gè),包括對(duì)推理成本的關(guān)注、蒸餾技術(shù)的應(yīng)用以及Scaling Law的轉(zhuǎn)變。
模型小型化的原因
1. **AI需求增加**:隨著AI產(chǎn)品需求的激增,服務(wù)商面臨的推理請(qǐng)求遠(yuǎn)超預(yù)期,促使模型在保持性能的同時(shí)減小規(guī)模。
2. **蒸餾技術(shù)**:通過讓小模型模仿大模型的性能,蒸餾技術(shù)使得小模型表現(xiàn)得更強(qiáng)大。
3. **Scaling Law轉(zhuǎn)變**:從Kaplan到Chinchilla的轉(zhuǎn)變強(qiáng)調(diào)了數(shù)據(jù)規(guī)模的重要性,模型不必一味增大。
4. **推理效率提升**:優(yōu)化推理過程使得模型在處理復(fù)雜任務(wù)時(shí)能更高效運(yùn)行,從而推動(dòng)了模型縮小。
未來展望
雖然當(dāng)前的趨勢(shì)表明模型正在向小型化發(fā)展,但并不意味著未來的模型規(guī)模會(huì)一直減小。硬件的進(jìn)步可能會(huì)促使更大的模型變得更具優(yōu)勢(shì),尤其是在處理復(fù)雜任務(wù)時(shí)。因此,未來的模型規(guī)模可能會(huì)恢復(fù)到甚至超過GPT-4的水平。
總的來看,當(dāng)前AI發(fā)展的分水嶺在于如何有效利用數(shù)據(jù)和優(yōu)化模型,而Ilya的則為這一討論提供了新的視角。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。