標簽:測試
13B模型全方位碾壓GPT-4?這背后有什么貓膩
機器之心報道編輯:陳萍你的測試集信息在訓練集中泄漏了嗎?一個參數量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結果的有效性,這...
恕我直言,大模型對齊可能無法解決安全問題,我們都被表象誤導了
夕小瑤科技說 原創作者 | 智商掉了一地、Python是否聽說過“偽對齊”這一概念?在大型語言模型(LLM)的評估中,研究者發現了一個引人注目的現象:當面對多項選...
一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI如今很多大模型都聲稱擅長數學,誰有真才實學?誰是靠背測試題“作弊”的?有人在今年剛剛公布題目的匈牙利全國數學期...
GPT-4作弊被抓!吉娃娃or松餅打亂順序就出錯,LeCun:警惕在訓練集上測試
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIGPT-4解決網絡名梗“吉娃娃or藍莓松餅”,一度驚艷無數人。然鵝,現在它被指出“作弊”了!全用原題中出現的圖,只是打亂...
1分鐘誕生一個新GPT!3天內定制GPT大爆發,理想型男友、科研利器全網刷屏
新智元報道編輯:桃子潤【新智元導讀】短短3天,全球迎來了GPT應用大爆發,時代爆款已現雛形。1分鐘誕生一個新的GPT!不到一周的時間,各種定制GPT全球大爆發...
老黃H100再破紀錄,4分鐘訓完GPT-3!全新「版」H20、L20和L2曝光,性能史詩級縮水
新智元報道編輯:桃子 好困【新智元導讀】英偉達H100再次刷榜了,不到4分鐘就訓完GPT-3,比6月成績提升3倍。另外,特供版H20、L20和L2性能全都爆出。H100再次...
余承東何小鵬隔空互懟,真的只為了「自動剎車」嗎?
人機難共駕不和華為吵架,實在吵不過呀。說這句話的不是別人,正是微博上戰斗力最強的車企 CEO 李想。可即便是他,也無法在華為面前,喊出那句著名的「先聽我...
別讓大模型被基準評估坑了!測試集亂入預訓練,分數虛高,模型變傻
明敏 發自 凹非寺量子位 | 公眾號 QbitAI“別讓大模型被基準評估給坑了”。這是一項最新研究的題目,來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄...
英偉達新超級計算機刷新紀錄,8天完成ChatGPT訓練
點擊上方藍字關注我們“ Nvidia的全新Eos AI超級計算機以前所未有的速度,在短短3.9分鐘內完成了具有1750億參數和10億標記的GPT-3模型訓練,創下了令人矚目的...
大跌眼鏡!GPT-4V錯覺挑戰實錄:該錯的沒錯,不該錯的反而錯了
豐色 發自 凹非寺量子位 | 公眾號 QbitAIGPT-4V挑戰視覺錯誤圖,結果令人“大跌眼鏡”。像這種判斷“哪邊顏色更亮”的題,一個沒做對:讀圖片中隱藏信息的也傻傻...
王者GPT-4已來,32k上下文!OpenAI首屆開發者大會最新爆料,全新UI可定制GPT,xAI大模型大范圍可用
新智元報道編輯:桃子 潤【新智元導讀】OpenAI首屆開發者大會開啟前,ChatGPT各種爆料已出,全新UI界面,人人可定制GPT,將引領「智能體工程師」新職業誕生。...
GPT-4的圖靈測試結果出爐!
夕小瑤科技說 原創作者 | 智商掉了一地、ZenMoore圖靈測試,作為衡量機器思維能力的方式,自 1950 年由圖靈設計以來一直備受爭議。這個模仿游戲的設定包括人...
代碼能力超越GPT-4,這個模型登頂Big Code排行榜,YC創始人點贊
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI一款號稱代碼能力超越GPT-4的模型,引發了不少網友的關注。準確率比GPT-4高出超過10%,速度卻接近GPT-3.5,而且窗...
GPT-4能「偽裝」類嗎?圖靈測試結果出爐
機器之心報道編輯:Panda純文本對話,安能辯我是AI?在測試 AI 時,圖靈測試是一個飽受爭議但也久負盛名的評估方法,因此總會有研究者不畏繁瑣,對新興的語言...
清華版「AutoGPT」登GitHub熱榜!復雜任務輕松搞定,還能自己訓練模型
西風 發自 凹非寺量子位 | 公眾號 QbitAI清華開源通用智能體XAgent,登上GitHub熱榜,狂攬1400+?各種任務都能做,讓它使用python來分析給定的數據,分分鐘搞...
粵公網安備 44011502001135號