AIGC動態歡迎閱讀
原標題:ACL 2024 | 對25個開閉源模型數學評測,GPT-3.5-Turbo才勉強及格
關鍵字:問題,騰訊,數學,變體,性能
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者來自香港大學和騰訊。作者列表:李沁桐,Leyang Cui,趙學亮,孔令鵬,Wei Bi。其中,第一作者李沁桐是香港大學自然語言處理實驗室的博士生,研究方向涉及自然語言生成和文本推理,與博士生趙學亮共同師從孔令鵬教授。Leyang Cui 和 Wei Bi 是騰訊高級研究員。
前言
大型語言模型(LLMs)在解決問題方面的非凡能力日益顯現。最近,一個值得關注的現象是,這些模型在多項數學推理的基準測試中獲得了驚人的成績。以 GPT-4 為例,在高難度小學應用題測試集 GSM8K [1] 中表現優異,準確率高達 90% 以上。同時,許多開源模型也展現出了不俗的實力,準確率超過 80%。
然而在使用中我們經常會發現,當數學問題稍作改變時,LLMs 可能會出現
原文鏈接:ACL 2024 | 對25個開閉源模型數學評測,GPT-3.5-Turbo才勉強及格
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...