<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度

        AIGC動態8個月前發布 量子位
        331 0 0

        LLM生成長段回復的能力還有待加強

        打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度

        原標題:打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度
        文章來源:量子位
        內容字數:5290字

        長上下文大模型能力再評估:32K tokens的“水分”與LONGPROC基準

        近期,陳丹琦團隊提出的全新基準測試工具LONGPROC,對現有長上下文大模型(LLM)的能力提出了質疑。盡管許多大模型宣稱能輸出32K tokens的文本,但實際表現卻大打折扣。LONGPROC專注于評估模型處理復雜信息并生成長文本的能力,實驗結果顯示,即使是GPT-4o等頂尖模型,在處理8K tokens的復雜任務時也性能下降明顯,存在“幻覺”等問題。

        1. LONGPROC基準:更嚴格的測試標準

        現有基準主要關注長上下文記憶,而忽略了模型整合分散信息、生成長文本的能力。LONGPROC基準包含六個復雜任務,要求模型輸出超過1K tokens,并提供確定性解決方案,更全面地評估模型的長上下文處理能力。這六個任務分別是:

        1. HTML到TSV:從HTML頁面提取信息并格式化為表格。
        2. 偽代碼生成代碼:將偽代碼翻譯成C++代碼。
        3. 路徑遍歷:在公共交通網絡中尋找路徑。
        4. Theory-of-Mind跟蹤:跟蹤故事中對象位置的思想變化。
        5. Countdown游戲:使用四個數字和基本算術操作找到目標數字。
        6. 旅行規劃:生成滿足多種約束的多城市旅行計劃。

        LONGPROC 基準不僅考察輸出長度,還關注信息獲取方式、演繹推理和搜索能力等方面。

        2. 實驗結果:模型性能普遍下降

        實驗涵蓋17個模型,包括GPT-4o、Claude 3.5、Gemini 1.5等閉源模型和多個開源模型。結果顯示,所有模型在長程序生成任務中都表現出顯著的性能下降。即使是GPT-4o,在8K tokens的任務中也難以保持穩定性。開源模型普遍表現不佳,而中等規模的開源模型在低難度任務上與GPT-4o表現接近,但在某些特定8K任務中甚至超越了GPT-4o。

        3. 模型表現與任務類型相關

        模型性能與任務類型密切相關。需要更長推理鏈的任務(如Theory-of-Mind跟蹤、Countdown游戲和旅行規劃)導致模型性能下降更為顯著。GPT-4o等模型的準確率在這些任務現直線下降。

        4. 與人類能力的差距

        與人類表現相比,當前模型仍存在顯著差距。例如,在Countdown游戲中,人類解決了10個問題,而GPT-4o僅解決7個。

        5. 結論與未來方向

        LONGPROC 基準有效評估了模型在長程序生成任務中的表現,揭示了即使是最先進的模型,在生成連貫的長文本方面仍有很大的改進空間。尤其是在8K tokens的任務中,大型模型表現不佳,這將是未來LLM研究的重要方向。

        6. 論文作者

        論文一作是清華校友葉曦(Xi Ye),目前是普林斯頓大學博士后研究員,并將于2025年7月加入阿爾伯塔大學擔任助理教授。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲最大天堂无码精品区| 亚洲色偷偷偷网站色偷一区| 亚洲综合校园春色| 亚洲精品久久无码| 最近免费中文字幕大全视频| 在线A亚洲老鸭窝天堂| 一级一看免费完整版毛片| 亚洲一区日韩高清中文字幕亚洲| 久久精品国产精品亚洲毛片| 亚洲一区免费观看| 国产亚洲大尺度无码无码专线 | 色猫咪免费人成网站在线观看| 亚洲va中文字幕无码久久| 立即播放免费毛片一级| 免费女人18毛片a级毛片视频| 思思久久99热免费精品6| 最近2019中文字幕免费看最新 | 黄色永久免费网站| 亚洲精品国产国语| 国产一级大片免费看| jizz18免费视频| 亚洲精品和日本精品| XXX2高清在线观看免费视频| 久久精品国产亚洲AV麻豆不卡| 91免费福利精品国产| 日本亚洲成高清一区二区三区| 四虎影视在线影院在线观看免费视频 | 亚洲精品无码av片| 亚洲一区视频在线播放| 久久国产色AV免费观看| 亚洲日韩看片无码电影| 国产亚洲AV夜间福利香蕉149 | 亚洲va精品中文字幕| 国产一区二区三区免费在线观看| 国产又黄又爽胸又大免费视频 | 成人午夜免费视频| 久久久久亚洲AV无码观看| 日本免费一二区在线电影 | 一级黄色免费网站| 精品亚洲国产成AV人片传媒| 女人毛片a级大学毛片免费|