AIGC動態歡迎閱讀
原標題:CoT提出者Jason Wei:大模型評估基準的「」
關鍵字:基準,模型,工具,樣本,測試
文章來源:機器之心
內容字數:7633字
內容摘要:
機器之心報道
機器之心編輯部Jason Wei 是思維鏈提出者,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。在 CV 領域,研究者一直把李飛飛等人創建的 ImageNet 奉為模型在下游視覺任務中能力的試金石。
在大模型時代,我們該如何評估 LLM 性能?現階段,研究者已經提出了諸如 MMLU、GSM8K 等一些評估基準,不斷有 LLM 在其上刷新得分。
但這些評估基準真的完美嗎?思維鏈提出者 Jason Wei 在一篇博客中進行了深入的研究。Jason Wei 首先列舉了幾種成功的評估基準,然后總結了評估基準失敗的常見原因,共七條,包括樣本數量少、評估基準太復雜等等。
進一步的,Jason Wei 認為有些評估工具命名方式并不完美,比如 HumanEval 雖然叫做人類評估,實際上并沒有用到人類進行評估,只是因為問題是由人類創建的。
Jason Wei 表示如果想讓自己創建的評估工具得到廣泛使用,一定要幫助研究者使用它,從而得到推廣。此外,文中還提到了一些針對特定領域的小眾評估工具,Jason Wei 認為這些評估可
原文鏈接:CoT提出者Jason Wei:大模型評估基準的「」
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...