「用 AI 訓 AI」這事靠譜嗎？

AIGC動態1年前 (2024)發布機器之心

「用 AI 訓 AI」這事靠譜嗎？

AIGC動態歡迎閱讀

原標題：「用 AI 訓 AI」這事靠譜嗎？
關鍵字：模型,解讀,自我,指令,語言
文章來源：機器之心
內容字數：4796字

內容摘要：

來源：節選自2024 年 Week04業內通訊在大語言模型領域，微調是改進模型的重要步驟。伴隨開源模型數量日益增多，針對LLM的微調方法同樣在推陳出新。
2024年初，Meta和紐約大學等機構的研究者提出了一項「自我獎勵方法」，可以讓大模型自己生成自己的微調數據。研究者對 Llama 2 70B 進行了三個迭代的微調，其生成的模型在 AlpacaEval 2.0 排行榜上優于 Claude 2、Gemini Pro 和 GPT-4 等現有大模型。獎勵模型能干什么？
大型語言模型通過以逐步思考鏈格式生成解決方案，解決需要復雜多步推理的任務。許多研究關注如何檢測和減少幻覺對于提高推理能力。其中，通過訓練獎勵模型以區分期望的和不期望的輸出則是一種有效的方法，獎勵模型可以用于強化學習流程或通過拒絕采樣進行搜索。如何有效地訓練可靠的獎勵模型至關重要。
OpenAI 提出了人類反饋強化學習（RLHF）的標準方法在 ChatGPT 發布時引起極大關注。該技術模型可以從人類偏好中學習獎勵模型，再凍結獎勵模型并結合強化學習訓練 LLM。通過使用人類偏好數據調整大語言模型（LLM）可以提高預訓練模型的

原文鏈接：「用 AI 訓 AI」這事靠譜嗎？