谷歌Gemini剛發(fā)就惹質(zhì)疑:測試標準有失偏頗,效果視頻疑似剪輯
AIGC動態(tài)歡迎閱讀
原標題:谷歌Gemini剛發(fā)就惹質(zhì)疑:測試標準有失偏頗,效果視頻疑似剪輯
文章來源:量子位
內(nèi)容字數(shù):10318字
內(nèi)容摘要:夢晨 克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI谷歌憋了許久的大招,雙子座Gemini大模型終于發(fā)布!其中一圖一視頻最引人注目:一圖,MMLU多任務語言理解數(shù)據(jù)集測試,Gemini Ultra不光超越GPT-4,甚至超越了人類專家。一視頻,AI實時對人類的涂鴉和手勢動作給出評論和吐槽,流暢還很幽默,最接近賈維斯的一集。然鵝當大家從驚喜中冷靜下來,仔細閱讀隨之發(fā)布的60頁技術報告時,卻發(fā)現(xiàn)不妥之處。(沒錯,沒有論文,OpenAICloseAI你開了個什么壞頭啊)MMLU測試中,Gemini結果下面灰色小字標稱CoT@32,展開來代表使用了思維鏈提示技巧、嘗試了32次選最好結果。而作為對比的GPT-4,卻是無提示詞技巧、只嘗試5次,這個標準下Gemini Ultra其實并不如GPT-4。以及原圖比例尺也有點不厚道了,90.0%與人類基準89.8%明明只差一點,y軸上卻拉開很遠。Hug…
原文鏈接:點此閱讀原文:谷歌Gemini剛發(fā)就惹質(zhì)疑:測試標準有失偏頗,效果視頻疑似剪輯
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...