<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

        AIGC動態1年前 (2024)發布 新智元
        372 0 0

        兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

        AIGC動態歡迎閱讀

        原標題:兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷
        關鍵字:模型,能力,問題,答案,測試
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:喬楊 好困
        【新智元導讀】在基準測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構LAION的幾位作者共同發表了一篇文章,以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題,揭示了LLM基準測試的盲區。一道簡單的邏輯問題,竟讓幾乎所有的LLM全軍覆沒?
        對于人類來說,這個名為「愛麗絲夢游仙境」(AIW)的測試并不算很難——
        「愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」
        只需稍加思考,答案顯而易見:M+1。(愛麗絲擁有的姐妹數量,再加上愛麗絲自己)
        但是,當研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時,得到的結果卻非常離譜。只有OpenAI最新的GPT-4o勉強及格。
        而且問題不僅僅是基本的不準確性:當要求展示其工作過程時,AI會詳細說明一些荒謬且錯誤的「思考」過程,這些過程毫無意義——更奇怪的是,當被告知其工作不準確時,模型反復變得憤怒并堅持其錯誤答案。
        正如這支來自知名開源AI研究機構LAION的團隊所揭示的——即使是當今最先進的模型,也幾乎不具有小學生的推理能力


        原文鏈接:兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

        聯系作者

        文章來源:新智元
        作者微信:AI_era
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 每天更新的免费av片在线观看 | xxxx日本免费| 中文字幕亚洲不卡在线亚瑟| 亚洲欧美日韩综合俺去了| 永久免费视频网站在线观看| 亚洲成AV人片在线观看无码| 国产午夜无码精品免费看| 亚洲爆乳无码专区| 无码 免费 国产在线观看91| 日韩精品无码人妻免费视频| 亚洲av无码专区在线| 97公开免费视频| 亚洲国产综合第一精品小说| **俄罗斯毛片免费| 亚洲成aⅴ人片在线影院八| 免费能直接在线观看黄的视频| 亚洲成AV人综合在线观看| 91在线视频免费91| 亚洲欧洲尹人香蕉综合| 日韩毛片免费无码无毒视频观看 | 亚洲最大成人网色| 美女视频黄免费亚洲| 亚洲中文无码卡通动漫野外| 四虎影视永久免费观看网址| 中文字幕在线视频免费| 亚洲视频在线观看| 天堂在线免费观看中文版| 免费人成动漫在线播放r18| 亚洲国产专区一区| 91av免费观看| 亚洲人成色4444在线观看| 久久亚洲国产精品123区| 亚洲美女免费视频| 黄色免费网址大全| 亚洲精品视频在线| 国产无遮挡吃胸膜奶免费看视频| 天黑黑影院在线观看视频高清免费 | 日韩一区二区三区免费体验| 国产乱妇高清无乱码免费| 亚洲国产韩国一区二区| 国产一区二区三区免费看|