「用 AI 訓(xùn) AI」這事靠譜嗎?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:「用 AI 訓(xùn) AI」這事靠譜嗎?
關(guān)鍵字:模型,解讀,自我,指令,語言
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4796字
內(nèi)容摘要:
來源:節(jié)選自2024 年 Week04業(yè)內(nèi)通訊在大語言模型領(lǐng)域,微調(diào)是改進(jìn)模型的重要步驟。伴隨開源模型數(shù)量日益增多,針對LLM的微調(diào)方法同樣在推陳出新。
2024年初,Meta和紐約大學(xué)等機(jī)構(gòu)的研究者提出了一項(xiàng)「自我獎勵方法」,可以讓大模型自己生成自己的微調(diào)數(shù)據(jù)。研究者對 Llama 2 70B 進(jìn)行了三個(gè)迭代的微調(diào),其生成的模型在 AlpacaEval 2.0 排行榜上優(yōu)于 Claude 2、Gemini Pro 和 GPT-4 等現(xiàn)有大模型。獎勵模型能干什么?
大型語言模型通過以逐步思考鏈格式生成解決方案,解決需要復(fù)雜多步推理的任務(wù)。許多研究關(guān)注如何檢測和減少幻覺對于提高推理能力。其中,通過訓(xùn)練獎勵模型以區(qū)分期望的和不期望的輸出則是一種有效的方法,獎勵模型可以用于強(qiáng)化學(xué)習(xí)流程或通過拒絕采樣進(jìn)行搜索。如何有效地訓(xùn)練可靠的獎勵模型至關(guān)重要。
OpenAI 提出了人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 的標(biāo)準(zhǔn)方法在 ChatGPT 發(fā)布時(shí)引起極大關(guān)注。該技術(shù)模型可以從人類偏好中學(xué)習(xí)獎勵模型,再凍結(jié)獎勵模型并結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練 LLM。通過使用人類偏好數(shù)據(jù)調(diào)整大語言模型(LLM)可以提高預(yù)訓(xùn)練模型的
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺