AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了
關鍵字：模型,數學,數據,路徑,研究人員
文章來源：量子位
內容字數：3203字

內容摘要：

魚羊發自凹非寺量子位 | 公眾號 QbitAI把AlphaGo的核心算法用在大模型上，“高考”成績直接提升了20多分。
在MATH數據集上，甚至讓7B模型得分超過了GPT-4。
一項來自阿里的新研究引發關注：
研究人員用蒙特卡洛樹搜索（MCTS）給大語言模型來了把性能增強，無需人工標注解題步驟，也能生成高質量數據，有效提升大模型的數學成績。
論文發布，讓不少網友重新關注到了蒙特卡洛樹搜索這個在前大模型時代的明星算法。
有人直言：
蒙特卡洛樹搜索+LLM是通往超級智能之路。
因為“樹搜索本身更接近人類思維”。
用蒙特卡洛樹搜索增強大模型具體來說，阿里的研究人員提出了一種名為AlphaMath的方法，用大語言模型+MCTS來自動生成數學推理數據，并提升大模型在完成數學推理任務時的性能表現。
嗯，名字就很有蒙特卡洛樹搜索內味兒了。
這里有個前情提要：
思維鏈（CoT）、思維程序（PoT）等方法已經被證明能夠有效提高大模型的數學能力，但問題在于，它們都需要人類手動喂詳細的解題步驟，即訓練當中需要用到人工標注的高質量數學推理數據。
AlphaMath的一個核心目的就在于，在這個步驟中去人工化

原文鏈接：AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了