預(yù)訓(xùn)練之爭(zhēng)：小模型時(shí)代的逆襲與未來預(yù)言的再審視

原標(biāo)題：Ilya錯(cuò)了，預(yù)訓(xùn)練沒結(jié)束！LeCun等反擊，「小模型時(shí)代」讓奧特曼預(yù)言成真
文章來源：新智元
內(nèi)容字?jǐn)?shù)：7410字

預(yù)訓(xùn)練的未來：Ilya的引發(fā)爭(zhēng)議

最近，在NeurIPS 2024大會(huì)上，前OpenAI首席科學(xué)家Ilya發(fā)表了“預(yù)訓(xùn)練結(jié)束了”的，迅速引發(fā)了業(yè)界的廣泛關(guān)注與討論。他認(rèn)為，數(shù)據(jù)的稀缺性使得大規(guī)模預(yù)訓(xùn)練難以為繼，然而這一觀點(diǎn)遭到了谷歌和Meta等公司的大佬們的反對(duì)，他們認(rèn)為預(yù)訓(xùn)練并未結(jié)束，反而還有更大的潛力待挖掘。

數(shù)據(jù)資源的潛力

Ilya的觀點(diǎn)引發(fā)了對(duì)數(shù)據(jù)資源的重新審視。前Meta團(tuán)隊(duì)高級(jí)總監(jiān)Dhruv Batra指出，人類的數(shù)據(jù)并未用盡，尤其是視頻等非文本數(shù)據(jù)仍有巨大的潛力。當(dāng)前網(wǎng)絡(luò)上可用的文本數(shù)據(jù)只是冰山一角，音頻、視頻和圖像等數(shù)據(jù)同樣可以用于模型的預(yù)訓(xùn)練。

Scaling Law的變化

近年來，模型的規(guī)模和性能提升的方式發(fā)生了改變。Epoch AI的研究表明，從GPT-1到GPT-4，盡管模型規(guī)模不斷增大，但增幅逐漸減小，甚至在2023年出現(xiàn)了規(guī)模縮小的趨勢(shì)。這一現(xiàn)象的原因有多個(gè)，包括對(duì)推理成本的關(guān)注、蒸餾技術(shù)的應(yīng)用以及Scaling Law的轉(zhuǎn)變。

模型小型化的原因

1. **AI需求增加**：隨著AI產(chǎn)品需求的激增，服務(wù)商面臨的推理請(qǐng)求遠(yuǎn)超預(yù)期，促使模型在保持性能的同時(shí)減小規(guī)模。

2. **蒸餾技術(shù)**：通過讓小模型模仿大模型的性能，蒸餾技術(shù)使得小模型表現(xiàn)得更強(qiáng)大。

3. **Scaling Law轉(zhuǎn)變**：從Kaplan到Chinchilla的轉(zhuǎn)變強(qiáng)調(diào)了數(shù)據(jù)規(guī)模的重要性，模型不必一味增大。

4. **推理效率提升**：優(yōu)化推理過程使得模型在處理復(fù)雜任務(wù)時(shí)能更高效運(yùn)行，從而推動(dòng)了模型縮小。

未來展望

雖然當(dāng)前的趨勢(shì)表明模型正在向小型化發(fā)展，但并不意味著未來的模型規(guī)模會(huì)一直減小。硬件的進(jìn)步可能會(huì)促使更大的模型變得更具優(yōu)勢(shì)，尤其是在處理復(fù)雜任務(wù)時(shí)。因此，未來的模型規(guī)模可能會(huì)恢復(fù)到甚至超過GPT-4的水平。

總的來看，當(dāng)前AI發(fā)展的分水嶺在于如何有效利用數(shù)據(jù)和優(yōu)化模型，而Ilya的則為這一討論提供了新的視角。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡(jiǎn)介：智能+中國主平臺(tái)，致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國新智能時(shí)代。

閱讀原文