2024KDD挑戰(zhàn)任務(wù)，GPT-4僅得40分，Meta發(fā)布最新RAG評(píng)價(jià)基準(zhǔn)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：2024KDD挑戰(zhàn)任務(wù)，GPT-4僅得40分，Meta發(fā)布最新RAG評(píng)價(jià)基準(zhǔn)
關(guān)鍵字：問(wèn)題,答案,報(bào)告,圖譜,任務(wù)
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | Axe_越眾所周知，“要想富，先修路”，經(jīng)常挖路的同學(xué)應(yīng)該知道，要想修好一條路，首先就必須搞清楚關(guān)于道路質(zhì)量的統(tǒng)一驗(yàn)收標(biāo)準(zhǔn)，否則，“我怎么知道我這條路能不能走通呢”？
對(duì)于AI領(lǐng)域來(lái)說(shuō)，也同樣如此。
還記得一年多以前，當(dāng)?shù)谝慌泽π返拇罄袀儗z索增強(qiáng)生成（Retrieval-Augmented Generation，RAG）與LLM結(jié)合之后，由于補(bǔ)齊了LLM知識(shí)不足的短板，LLM立刻在各個(gè)領(lǐng)域的應(yīng)用方面都迸發(fā)出了更大的潛力。
如今，RAG的范式已不再局限于將外部知識(shí)作為上下文補(bǔ)充的最傳統(tǒng)范式，各種“聯(lián)合訓(xùn)練”，“自我反思”，“前瞻性主動(dòng)檢索”方案百花齊放。然而時(shí)至今日，對(duì)于RAG對(duì)LLM的增強(qiáng)效果到底怎么樣，仍然缺乏一個(gè)統(tǒng)一的驗(yàn)收標(biāo)準(zhǔn)。
為填補(bǔ)這一空缺，Meta最近發(fā)布了一套R(shí)AG評(píng)測(cè)基準(zhǔn)，或許出乎大家的意料，哪怕是被大家公認(rèn)最強(qiáng)的GPT-4在加上RAG之后，也僅僅只能勉強(qiáng)飄過(guò)40分（看了很多遍確認(rèn)是百分制）！在LLM+RAG這條道路上，實(shí)際上我們還有太多值得繼續(xù)探索和優(yōu)化的事情。
論文標(biāo)題:CRAG – Comprehensive RAG Benchmar

原文鏈接：2024KDD挑戰(zhàn)任務(wù)，GPT-4僅得40分，Meta發(fā)布最新RAG評(píng)價(jià)基準(zhǔn)

聯(lián)系作者

文章來(lái)源：夕小瑤科技說(shuō)
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作：zym5189

閱讀原文