o1開啟LLM新范式,Ai2科學(xué)家解析背后秘籍:推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵
原標(biāo)題:o1開啟LLM新范式,Ai2科學(xué)家解析背后秘籍:推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵
文章來源:新智元
內(nèi)容字?jǐn)?shù):9725字
語言模型推理現(xiàn)狀及OpenAI o1模型解讀
本文總結(jié)了Ai2研究科學(xué)家Nathan Lambert在NeurIPS上關(guān)于語言模型推理現(xiàn)狀的演講要點(diǎn),重點(diǎn)關(guān)注OpenAI o1模型及其強(qiáng)化學(xué)習(xí)訓(xùn)練方法。
推理的重新定義
Lambert認(rèn)為,“推理”不再是一個(gè)的領(lǐng)域,而是一種方法。語言模型的推理方式不必與人類相同,其隨機(jī)性應(yīng)被接受并納入研究。
語言模型能否推理?
關(guān)于語言模型是否進(jìn)行推理的爭論很多。Lambert認(rèn)為,關(guān)鍵不在于模型的推理是否像人類,而在于其是否能有效完成任務(wù)。新的語言模型推理形式正在出現(xiàn),它們與人類的推理方式不同。
思維鏈與o1模型
思維鏈的有效性在于它引導(dǎo)語言模型逐步輸出token,token流相當(dāng)于中間狀態(tài)。o1模型本質(zhì)上是規(guī)模巨大的預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí),通過增加計(jì)算消耗來推動(dòng)任務(wù)進(jìn)展。
o1模型及“親戚”模型
o1模型及其類似模型(如DeepSeek、QwQ)的成功在于其處理多種任務(wù)的能力。o1模型的強(qiáng)化學(xué)習(xí)訓(xùn)練計(jì)算量巨大,遠(yuǎn)超預(yù)訓(xùn)練。
強(qiáng)化學(xué)習(xí)微調(diào)
OpenAI的強(qiáng)化學(xué)習(xí)微調(diào)API通過多次處理數(shù)據(jù),僅需少量token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)。其關(guān)鍵在于獎(jiǎng)勵(lì)機(jī)制:模型在答案正確時(shí)獲得獎(jiǎng)勵(lì),從而強(qiáng)化正確行為。這種方法在答案質(zhì)量比文本風(fēng)格更重要的任務(wù)中表現(xiàn)出色。
評分器模型
評分器模型起源于模型評估領(lǐng)域,用于對模型輸出進(jìn)行獎(jiǎng)勵(lì)塑造。它將成為開放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。
OpenAI的實(shí)踐及開源工具
OpenAI的o1模型訓(xùn)練過程通過圖表展示了性能隨時(shí)間的變化。Ai2也發(fā)布了開源代碼,用于處理數(shù)學(xué)和部分指令微調(diào)任務(wù),并計(jì)劃開發(fā)更復(fù)雜的評分器。
總結(jié)
Lambert的演講揭示了語言模型推理的現(xiàn)狀及未來發(fā)展方向。o1模型及其強(qiáng)化學(xué)習(xí)訓(xùn)練方法為語言模型能力的提升提供了新的思路,而開源工具的出現(xiàn)則推動(dòng)了該領(lǐng)域的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。