標簽：測試

13B模型全方位碾壓GPT-4？這背后有什么貓膩

機器之心報道編輯：陳萍你的測試集信息在訓練集中泄漏了嗎？一個參數量為 13B 的模型竟然打敗了頂流 GPT-4？就像下圖所展示的，并且為了確保結果的有效性，這...

閱讀原文

AIGC動態

2年前 (2023)

恕我直言，大模型對齊可能無法解決安全問題，我們都被表象誤導了

夕小瑤科技說原創作者 | 智商掉了一地、Python是否聽說過“偽對齊”這一概念？在大型語言模型（LLM）的評估中，研究者發現了一個引人注目的現象：當面對多項選...

閱讀原文

AIGC動態

2年前 (2023)

一招分辨刷榜作弊大模型，博士小哥開源AI數學“照妖鏡”

夢晨發自凹非寺量子位 | 公眾號 QbitAI如今很多大模型都聲稱擅長數學，誰有真才實學？誰是靠背測試題“作弊”的？有人在今年剛剛公布題目的匈牙利全國數學期...

閱讀原文

AIGC動態

2年前 (2023)

GPT-4作弊被抓！吉娃娃or松餅打亂順序就出錯，LeCun：警惕在訓練集上測試

夢晨發自凹非寺量子位 | 公眾號 QbitAIGPT-4解決網絡名梗“吉娃娃or藍莓松餅”，一度驚艷無數人。然鵝，現在它被指出“作弊”了！全用原題中出現的圖，只是打亂...

閱讀原文

AIGC動態

2年前 (2023)

1分鐘誕生一個新GPT！3天內定制GPT大爆發，理想型男友、科研利器全網刷屏

新智元報道編輯：桃子潤【新智元導讀】短短3天，全球迎來了GPT應用大爆發，時代爆款已現雛形。1分鐘誕生一個新的GPT！不到一周的時間，各種定制GPT全球大爆發...

閱讀原文

AIGC動態

2年前 (2023)

老黃H100再破紀錄，4分鐘訓完GPT-3！全新「版」H20、L20和L2曝光，性能史詩級縮水

新智元報道編輯：桃子好困【新智元導讀】英偉達H100再次刷榜了，不到4分鐘就訓完GPT-3，比6月成績提升3倍。另外，特供版H20、L20和L2性能全都爆出。H100再次...

閱讀原文

AIGC動態

2年前 (2023)

余承東何小鵬隔空互懟，真的只為了「自動剎車」嗎？

人機難共駕不和華為吵架，實在吵不過呀。說這句話的不是別人，正是微博上戰斗力最強的車企 CEO 李想。可即便是他，也無法在華為面前，喊出那句著名的「先聽我...

閱讀原文

AIGC動態

2年前 (2023)

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

明敏發自凹非寺量子位 | 公眾號 QbitAI“別讓大模型被基準評估給坑了”。這是一項最新研究的題目，來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄...

閱讀原文

AIGC動態

2年前 (2023)

英偉達新超級計算機刷新紀錄，8天完成ChatGPT訓練

點擊上方藍字關注我們“ Nvidia的全新Eos AI超級計算機以前所未有的速度，在短短3.9分鐘內完成了具有1750億參數和10億標記的GPT-3模型訓練，創下了令人矚目的...

閱讀原文

AIGC動態

2年前 (2023)

大跌眼鏡！GPT-4V錯覺挑戰實錄：該錯的沒錯，不該錯的反而錯了

豐色發自凹非寺量子位 | 公眾號 QbitAIGPT-4V挑戰視覺錯誤圖，結果令人“大跌眼鏡”。像這種判斷“哪邊顏色更亮”的題，一個沒做對：讀圖片中隱藏信息的也傻傻...

閱讀原文

AIGC動態

2年前 (2023)

王者GPT-4已來，32k上下文！OpenAI首屆開發者大會最新爆料，全新UI可定制GPT，xAI大模型大范圍可用

新智元報道編輯：桃子潤【新智元導讀】OpenAI首屆開發者大會開啟前，ChatGPT各種爆料已出，全新UI界面，人人可定制GPT，將引領「智能體工程師」新職業誕生。...

閱讀原文

AIGC動態

2年前 (2023)

GPT-4的圖靈測試結果出爐！

夕小瑤科技說原創作者 | 智商掉了一地、ZenMoore圖靈測試，作為衡量機器思維能力的方式，自 1950 年由圖靈設計以來一直備受爭議。這個模仿游戲的設定包括人...

閱讀原文

AIGC動態

2年前 (2023)

代碼能力超越GPT-4，這個模型登頂Big Code排行榜，YC創始人點贊

克雷西發自凹非寺量子位 | 公眾號 QbitAI一款號稱代碼能力超越GPT-4的模型，引發了不少網友的關注。準確率比GPT-4高出超過10%，速度卻接近GPT-3.5，而且窗...

閱讀原文

AIGC動態

2年前 (2023)

GPT-4能「偽裝」類嗎？圖靈測試結果出爐

機器之心報道編輯：Panda純文本對話，安能辯我是AI？在測試 AI 時，圖靈測試是一個飽受爭議但也久負盛名的評估方法，因此總會有研究者不畏繁瑣，對新興的語言...

閱讀原文

AIGC動態

2年前 (2023)

清華版「AutoGPT」登GitHub熱榜！復雜任務輕松搞定，還能自己訓練模型

西風發自凹非寺量子位 | 公眾號 QbitAI清華開源通用智能體XAgent，登上GitHub熱榜，狂攬1400+?各種任務都能做，讓它使用python來分析給定的數據，分分鐘搞...

閱讀原文

AIGC動態

2年前 (2023)

1…10 111213 14…7,422