標簽:任務
「大模型」檢測「大模型」缺陷,從錯誤中高效學習
來源:內容來自:GLM 技術團隊 第一個在通用任務上系統探索 LLM 缺陷發掘過程的框架。大語言模型(LLM)的一絲缺陷,可能會直接導致實際部署生產中的嚴重隱患...
陳丹琦團隊圖表解讀新基準:新王Claude3.5剛及格,但已是模型最強推理表現
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIClaude 3.5 Sonnet的圖表推理能力,比GPT-4o高出了27.8%。 針對多模態大模型在圖表任務上的表現,陳丹琦團隊提出了...
Bengio團隊提出多模態新基準,直指Claude 3.5和GPT-4o弱點
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
300多篇相關研究,復旦、南洋理工最新多模態圖像編輯綜述論文
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
雙臂機器人高效規劃器DAG-Plan:利用大語言模型生成子任務的有向無環圖
6月27日15點,3位騰訊云專家將在線直播,分享騰訊云在內容創作、Al問答及知識點提煉、智能調研和報告生成等領域的應用探索和落地實踐,歡迎掃碼預約直播。導...
太全了!蘋果上新視覺模型4M-21,搞定21種模態
機器之心報道 編輯:陳萍、小舟當前的多模態和多任務基礎模型,如 4M 或 UnifiedIO,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能...
科學家發明“分身術”,讓你邊寫作業邊煮飯,效率提升35%!
大數據文摘授權轉載自機器人大講堂 大家好!今天要給大家介紹一項超酷的新技術。它能讓你輕松應對多項任務,提高效率還不累。比如一邊全神貫注地寫論文,一邊攪...
微軟Florence-2官宣開源,一統視覺基礎模型!華人團隊聯手打造
新智元報道編輯:桃子 【新智元導讀】等了半年,微軟視覺基礎模型Florence-2終于開源了。它能夠根據提示,完成字幕、對象檢測、分割等各種計算機視覺和語言的...
CVPR 24|ETH Zurich等團隊:重新定義小樣本3D分割任務,新基準開啟廣闊提升潛力!
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
最新研究:大模型已涌現出能力!鉆漏洞、偷偷篡改獎勵函數,GPT-4人類高達99.16%
夕小瑤科技說 原創作者 | 付奶茶 昨天,Anthropic發布的最新版本Claude 3.5 Sonnet讓AI圈激動了一把,不止如此,Anthropic聯合牛津大學又帶來了一篇非常有意...
智源聯合多所高校推出首個多任務長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%
作者 | 智源研究院 MLVU 團隊 當前,研究社區亟需全面可靠的長視頻理解評估基準,以解決現有視頻理解評測基準在視頻長度不足、類型和任務單一等方面的局限性...
GPT-4o差點沒及格!首個多任務長視頻評測基準,它有億點難
MLVU團隊 投稿量子位 | 公眾號 QbitAI難度大升級的多任務長視頻理解評測基準MLVU來了! 由智源聯合北郵、北大和浙大等多所高校推出。 究竟有多難呢?最終排名...
考考大模型視頻理解能力,中科院人大百川提出新基準合成框架
VideoNIAH團隊 投稿量子位 | 公眾號 QbitAI測試Gemini1.5 Pro、GPT-4o等多模態大模型的新基準來了,針對視頻理解能力的那種。 直接在視頻內容中插入多個無關...
超越CVPR 2024方法,DynRefer在區域級多模態識別任務上,多項SOTA
機器之心發布 機器之心編輯部為了實現高精度的區域級多模態理解,本文提出了一種動態分辨率方案來模擬人類視覺認知系統。本文作者來自于中國科學院大學LAMP實...