標簽:語言

小模型性能飽和、表現不佳,根源是因為Softmax?

機器之心報道 編輯:陳萍小語言模型的出現是為彌補大語言模型的訓練、推理等成本昂貴的缺點,但其自身也存在訓練到某個階段后性能下降的事實 (飽和現象),那...
閱讀原文

「用 AI 訓 AI」這事靠譜嗎?

來源:節選自2024 年 Week04業內通訊在大語言模型領域,微調是改進模型的重要步驟。伴隨開源模型數量日益增多,針對LLM的微調方法同樣在推陳出新。 2024年初...
閱讀原文

參數量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

AI知道蘋果是什么嗎?DeepMind語言模型科學家正把這些概念變得可量化、可測試

來源:ScienceAI 編輯:白菜葉 與計算機科學家 Ellie Pavlick 談論她的工作——尋找大語言模型 (LLM) 中理解的證據——聽起來可能像是在開玩笑。「hand-wavy」這...
閱讀原文

AI程序員來了,學會讓它給你打工才是正事!| Q福利

Devin 真的會搶走你的飯碗嗎?全球首個完全自主的 AI 軟件工程師上線,它是來自 Cognition 這家初創公司的產品——Devin, 這個名字也隨即引爆了科技圈。話說 D...
閱讀原文

MIT研究登頂會ICLR 2024:讓機器人掌握"常識",自主完成復雜家務

大數據文摘受權轉載自機器人大講堂 在人工智能飛速發展的今天,家用服務機器人正日益走進尋常百姓家。然而,要讓機器人像人一樣靈活應對家庭環境的復雜多變,...
閱讀原文

阿里開源110B大模型!超越LLama3!

4月26日晚間,阿里正式發布了110B的千問1.5開源大模型。 110B是中文開源模型的最大尺寸,用了GQA,32k上下文,除了中文能力亮眼,英文表現效果好于LLama3 70B...
閱讀原文

世界讀書日特輯:傅盛和《人類簡史》的十年

近日,我在中信出版集團舉辦的2024讀者嘉年華活動上,做了一場“傅盛和《人類簡史》的十年”主題分享。 《人類簡史》這部本書給我帶來了很大的震撼,我認為它就...
閱讀原文

今日arXiv最熱NLP大模型論文:CMU最新綜述:工具使用,大模型的神兵利器

夕小瑤科技說 原創作者 | Tscom 引言:探索語言模型中的“工具”概念在當今的數字化時代,語言模型(Language Models, LMs)已經成為了人工智能領域的一大亮點...
閱讀原文

Transformer解碼真實場景!Meta推出70M參數SceneScript模型

新智元報道編輯:alan 【新智元導讀】近日,來自Meta的研究人員將Transformer用于解碼真實世界的場景,并轉化為幾何表示,效果超越了傳統的點云、網格或輻射...
閱讀原文

CVPR 2024 | 擅長處理復雜場景和語言表達,清華&博世提出全新實例分割網絡架構MagNet

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

微軟推出Phi-3 Mini:3.8B參數小到能塞進手機,性能媲美GPT-3.5

4月23日,微軟在官網開源了小語言模型(SLM)——Phi-3-mini。這是微軟Phi-3系列模型推出的首個模型。Phi-3-mini作為微軟Phi系列的第四代產品,以其38億參數和3...
閱讀原文

微軟發布Phi-3 Mini:3.8B參數小到能塞進手機,性能媲美GPT-3.5

“小而美”的Phi-3-mini竟然歸功于其合成數據組成的數據集? 編譯|長頸鹿 編輯|香草 智東西4月24日報道,4月23日,微軟在官網開源了小語言模型(SLM)——Phi-3-m...
閱讀原文

大模型綜述出書了

在2023年3月,我們發表了大語言模型綜述文章《A Survey of Large Language Models》。這篇綜述文章已經更新到第13個版本,包含了83頁的正文內容,并收錄了900...
閱讀原文

吳恩達力推,微軟、谷歌、OpenAI 押注,AI Agent 會是創業新風口嗎?

AI Agent 正在成為今年的 AI 新風口,不僅僅是從技術實現的角度,還有當下 AI 落地和收入角度的考慮。 吳恩達最近在多個場合分享了對于 AI Agent 的看法,他...
閱讀原文
1101112131429