AIGC動態歡迎閱讀
原標題:280頁PDF,全方位評估OpenAI o1,Leetcode刷題準確率竟這么高
關鍵字:報告,問題,模型,能力,領域
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:張倩計算機科學、數學、自然科學、醫學、語言學、社會科學……OpenAI o1擅長什么?還有哪些不足?OpenAI 的 o1-preview 模型已經發布兩周了,網上也有了很多零星的測評。不過,大部分測評都側重于某一個方面,對于 o1-preview 的系統評估目前還比較匱乏。
在一篇長達 280 頁的論文中,來自加拿大阿爾伯塔大學等機構的研究者報告了他們對 o1-preview 的系統評估結果,非常具有參考價值。論文標題:Evaluation of OpenAI o1: Opportunities and Challenges of AGI
論文鏈接:https://arxiv.org/pdf/2409.18486
具體來說,這項綜合研究評估了 o1-preview 在各種復雜推理任務中的性能,涵蓋多個領域,包括計算機科學、數學、自然科學、醫學、語言學和社會科學。通過嚴格的測試,o1-preview 展示了非凡的能力。
主要結論如下:
編程挑戰:在解決復雜的競賽性編程問題上,o1-preview 的成功率達到了 83.3%,超過了眾多的人類專家。
放射學報告生成:在
原文鏈接:280頁PDF,全方位評估OpenAI o1,Leetcode刷題準確率竟這么高
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...