標簽：測試

CoT提出者Jason Wei：大模型評估基準的「」

機器之心報道機器之心編輯部Jason Wei 是思維鏈提出者，并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。在 CV ...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4被證實具有「人類心智」登Nature！AI比人類更好察覺諷刺和暗示

新智元報道編輯：庸庸【新智元導讀】關于AI是否具有「心智理論」一直存在很多爭議。Nature最新研究顯示，GPT-4的行為可與人類媲美，甚至能夠比人類更好地察...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4o成為全領域SOTA！基準測試遠超Gemini和Claude，多模態功能遠超GPT-4

新智元報道編輯：編輯部【新智元導讀】OpenAI半小時的發布會讓很多人第一反應是直呼「失望」，但隨著官網放出更多demo以及更多網友開始試用，大家才發現GPT-...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

新智元報道編輯：桃子庸庸【新智元導讀】GPT-4通過圖靈測試了！UCSD研究團隊通過實證研究，人類無法將GPT-4與人類進行區分。而且，有54%的情況下，它被判定...

閱讀原文

AIGC動態

1年前 (2024)

今日arXiv最熱大模型論文：圖靈測試中，GPT-4仍不及人類！

夕小瑤科技說原創作者 | Axe_越你跟分清智能和人類嗎？ 2015年，在由香港大學主辦，以創新創業為主題的Dream Catchers論壇上，騰訊創始人馬化騰透露，在創業...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4o成全球網友新玩具，秒秒鐘紙質原型轉錄初始HTML，網友：谷歌你是一點流量攤不上啊

衡宇發自凹非寺量子位 | 公眾號 QbitAI好啊，不愧是OpenAI最新旗艦，打開各個社交軟件，GPT-4o的上手測試都唰唰唰往我首頁推。請！看！這，就是用上GPT-4...

閱讀原文

AIGC動態

1年前 (2024)

OpenAI神秘gpt2正在A/B測試，奧特曼搶先劇透，網友已玩嗨

明敏發自凹非寺量子位 | 公眾號 QbitAIOpenAI正在秘密A/B測試下一代模型，實力超強被懷疑是GPT-4.5或GPT-5。就在奧特曼當謎語人暗示之后，兩款新模型悄悄...

閱讀原文

AIGC動態

1年前 (2024)

今日arXiv最熱NLP大模型論文：對指令太敏感？山東大學提出一致性對齊法，治好大模型敏感體質！

夕小瑤科技說原創作者 | Axe_越不知道大家在使用大語言模型（LLM）的時候有沒有遇到過，明明一模一樣的意思，哪怕只有一兩個字不同的指令給到大模型后，都會...

閱讀原文

AIGC動態

1年前 (2024)

美國高調展示首個AI戰斗機！部長親自試駕全程未干預，10萬行代碼試飛21次

新智元報道編輯：編輯部【新智元導讀】美軍戰斗機，能由AI完成自主空戰了！最近，美國空軍部長Kendall親自試駕了國防部正在研制的X-62A AI飛機。1小時的飛行...

閱讀原文

AIGC動態

1年前 (2024)

GitHub版Devin上線，會打字就能開發應用，微軟CEO：重新定義IDE

克雷西發自凹非寺量子位 | 公眾號 QbitAI微軟的“GitHub版Devin”——Copilot WorkSpace，終于上線了！ WorkSpace是一種“Copilot原生”的全新開發環境，目的是讓...

閱讀原文

AIGC動態

1年前 (2024)

國產黑馬砸來百萬算力福利，Llama 3微調快去沖！H800點擊就送，1.99元玩轉4090

新智元報道編輯：編輯部【新智元導讀】才短短一周，微調Llama 3變體已經井噴了！去哪里微調Llama 3？這家國產黑馬早已上架了推理微調預訓練教程，更夸張的是...

閱讀原文

AIGC動態

1年前 (2024)

微軟來大招：手機部署堪比GPT3.5高性能大模型！

夕小瑤科技說原創作者 | 任同學上周 LLaMa3 算是把關注度拉爆了，這才過了幾天，微軟已經宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-...

閱讀原文

AIGC動態

1年前 (2024)

發布幾小時，微軟秒刪媲美GPT-4開源大模型！竟因忘記投毒測試

新智元報道編輯：編輯部【新智元導讀】前段時間，微軟公布并開源了最新一代大模型WizardLM-2，號稱性能堪比GPT-4。不過，還未上線一天，模型權重和公告全被...

閱讀原文

AIGC動態

1年前 (2024)

大模型一對一戰斗75萬輪，GPT-4奪冠，Llama 3位列第五

克雷西發自凹非寺量子位 | 公眾號 QbitAI關于Llama 3，又有測試結果新鮮出爐—— 大模型評測社區LMSYS發布了一份大模型排行榜單，Llama 3位列第五，英文單項...

閱讀原文

AIGC動態

1年前 (2024)

新測試基準發布，最強開源Llama 3尷尬了

夢晨發自凹非寺量子位 | 公眾號 QbitAI如果試題太簡單，學霸和學渣都能考90分，拉不開差距…… 隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布，業界急需...

閱讀原文

AIGC動態

1年前 (2024)

1…5 678 9…9,586