標簽:任務
無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成
LooGLE團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI在長文本理解能力這塊,竟然沒有一個大模型及格! 北大聯合北京通用人工智能研究院提出了一個新基準數據集:...
李飛飛「空間智能」之后,上交、智源、北大等提出空間大模型SpatialBot
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
特斯拉再造重創!OpenAI的人形機器人可以完全自主執行現實世界任務
點擊上方藍字關注我們由OpenAI支持的初創公司Figure,致力于開發面向家庭和工廠使用的AI機器人,如約發布了其人形機器人的新一代產品——Figure 02。 由Vettery...
Github 1.3K星的程序開發智能體!UIUC/CMU/耶魯等聯合發布OpenDevin技術報告
夕小瑤科技說 原創作者 | Axe_越如果說Agent(智能體)為LLM(大模型)找到了一個落地的方向,那么可以想象,一種能夠自動完成軟件開發、數據分析、網頁瀏覽...
跨平臺多模態智能體基準測試來了!但全班第一只考了35.26分
新智元報道編輯:alan 好困 【新智元導讀】近日,來自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機構的研究人員推出了一個跨平臺的多模態智能體基準測試,...
LLM智能「參差不齊」!AI大牛Karpathy用表情包解釋「9.9<9.11」
新智元報道編輯:喬楊 【新智元導讀】前段時間沖上熱搜的問題「9.11比9.9大嗎?」,讓幾乎所有LLM集體翻車。看似熱度已過,但AI界大佬Andrej Karpathy卻從中...
對吳恩達 workflow 概念產品化的思考
大模型時代最火AI芯片峰會來啦!!9月6-7日,由芯東西聯合主辦的2024全球AI芯片峰會將在北京舉行。峰會設有數據中心AI芯片、智算集群等7大板塊。目前,AMD人...
人大高瓴發布Think-on-Graph 2.0,基于知識圖的大模型推理再升級!
夕小瑤科技說 原創作者 | Axe_越經常參加高考的朋友可能會體會到,比起死記硬背知識點,將知識整理成脈絡往往會獲得事半功倍的效果。其實對于大模型來說也是...
87.8%準確率趕超GPT-4o登頂!谷歌DeepMind發布自動評估模型FLAMe
新智元報道編輯:喬楊 耳朵 【新智元導讀】谷歌DeepMind推出LLM自動評估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表現卓越,以87.8%準確率領先GPT-4o...
OpenDevin出技術報告了,大模型Agent開發者必讀
機器之心報道 編輯:陳陳、澤南熱門通用大模型 Agent 平臺。 今年 3 月,「全球首位 AI 軟件工程師」Devin 引爆了 AI 圈。與此前 AI 編程助手不同的是,Devin...
ChatGPT版「Her」被玩瘋:哭著讀詩,中文表現也很亮
金磊 發自 凹非寺量子位 | 公眾號 QbitAI上線僅僅一天,GPT-4o的高級語音功能(Advanced Voice Mode)簡直要被玩瘋了。 無數網友腦洞大開的瘋狂測試,GPT-4o...
CMU&清華新作:讓LLM自己合成數據來學習,特定任務性能同樣大幅提升
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
北京大學:利用好不確定性,8B小模型也能超越GPT-4
夕小瑤科技說 原創作者 | 謝年年大模型有一個顯著的特點,那就是不確定性——對于特定輸入,相同的LLM在不同解碼配置下可能生成顯著不同的輸出。 比如問一問cha...
從炒菜到縫針!斯坦福炒蝦團隊打造自主「AI達芬奇」,苦練神指當外科醫生
新智元報道編輯:編輯部 【新智元導讀】斯坦福炒蝦機器人作者,又出新作了!通過模仿學習,達芬奇機器人學會了自己做「手術」——提起組織、拾取針頭、縫合打結...
全新生物學基準數據集LAB-Bench震撼開源!覆蓋8大任務,超2.4K選擇題
lü作者:十九 編輯:十九,李寶珠 FutureHouse Inc. 的研究人員推出了 LAB-Bench 生物學基準測試數據集,用于評估 AI 系統在文獻檢索和推理、圖形解釋、表格...