「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」
AIGC動態(tài)歡迎閱讀
原標題:「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」
關鍵字:報告,模型,基準,測試,數(shù)據(jù)
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:Aeneas 好困
【新智元導讀】「世界開源新王」Reflection 70B,才坐上王座沒幾天就被打假,跌落神壇了!甚至有人質(zhì)疑,它莫不是套殼的Sonnet 3.5?發(fā)布者Matt Shumer和Sahil Chaudhary經(jīng)過一番掙扎,已經(jīng)光速「滑跪」,po出的復盤長文也是亮點滿滿。「開源新王」Reflection 70B,才發(fā)布一個月就跌落神壇了?
9月5日,Hyperwrite AI聯(lián)創(chuàng)兼CEO Matt Shumer在X上扔出一則性消息——
用Meta的開源Llama 3.1-70B,團隊微調(diào)出了Reflection 70B。它的基準測試結果驚人,可以和Claude 3.5 Sonnet以及GPT-4這類頂級閉源模型一較高下,直接登頂「世界開源新王」!
結果沒多久,Reflection 70B就被打假了:公布的基準測試結果和他們的測試之間存在顯著差異。
無論是AI研究者,還是第三方評估者,都無法復現(xiàn)Matt Shumer所聲稱的結果。
根據(jù)Artificial Analysis的數(shù)據(jù),Reflection 70B在基準測試中的表現(xiàn),竟然還不如原始版
原文鏈接:「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...