AIGC動態歡迎閱讀
內容摘要:
來源:節選自2024 年 Week04業內通訊在大語言模型領域,微調是改進模型的重要步驟。伴隨開源模型數量日益增多,針對LLM的微調方法同樣在推陳出新。
2024年初,Meta和紐約大學等機構的研究者提出了一項「自我獎勵方法」,可以讓大模型自己生成自己的微調數據。研究者對 Llama 2 70B 進行了三個迭代的微調,其生成的模型在 AlpacaEval 2.0 排行榜上優于 Claude 2、Gemini Pro 和 GPT-4 等現有大模型。獎勵模型能干什么?
大型語言模型通過以逐步思考鏈格式生成解決方案,解決需要復雜多步推理的任務。許多研究關注如何檢測和減少幻覺對于提高推理能力。其中,通過訓練獎勵模型以區分期望的和不期望的輸出則是一種有效的方法,獎勵模型可以用于強化學習流程或通過拒絕采樣進行搜索。如何有效地訓練可靠的獎勵模型至關重要。
OpenAI 提出了人類反饋強化學習 (RLHF) 的標準方法在 ChatGPT 發布時引起極大關注。該技術模型可以從人類偏好中學習獎勵模型,再凍結獎勵模型并結合強化學習訓練 LLM。通過使用人類偏好數據調整大語言模型(LLM)可以提高預訓練模型的
原文鏈接:「用 AI 訓 AI」這事靠譜嗎?
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...