2024KDD挑戰(zhàn)任務(wù),GPT-4僅得40分,Meta發(fā)布最新RAG評(píng)價(jià)基準(zhǔn)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:2024KDD挑戰(zhàn)任務(wù),GPT-4僅得40分,Meta發(fā)布最新RAG評(píng)價(jià)基準(zhǔn)
關(guān)鍵字:問(wèn)題,答案,報(bào)告,圖譜,任務(wù)
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Axe_越眾所周知,“要想富,先修路”,經(jīng)常挖路的同學(xué)應(yīng)該知道,要想修好一條路,首先就必須搞清楚關(guān)于道路質(zhì)量的統(tǒng)一驗(yàn)收標(biāo)準(zhǔn),否則,“我怎么知道我這條路能不能走通呢”?
對(duì)于AI領(lǐng)域來(lái)說(shuō),也同樣如此。
還記得一年多以前,當(dāng)?shù)谝慌泽π返拇罄袀儗z索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)與LLM結(jié)合之后,由于補(bǔ)齊了LLM知識(shí)不足的短板,LLM立刻在各個(gè)領(lǐng)域的應(yīng)用方面都迸發(fā)出了更大的潛力。
如今,RAG的范式已不再局限于將外部知識(shí)作為上下文補(bǔ)充的最傳統(tǒng)范式,各種“聯(lián)合訓(xùn)練”,“自我反思”,“前瞻性主動(dòng)檢索”方案百花齊放。然而時(shí)至今日,對(duì)于RAG對(duì)LLM的增強(qiáng)效果到底怎么樣,仍然缺乏一個(gè)統(tǒng)一的驗(yàn)收標(biāo)準(zhǔn)。
為填補(bǔ)這一空缺,Meta最近發(fā)布了一套R(shí)AG評(píng)測(cè)基準(zhǔn),或許出乎大家的意料,哪怕是被大家公認(rèn)最強(qiáng)的GPT-4在加上RAG之后,也僅僅只能勉強(qiáng)飄過(guò)40分(看了很多遍確認(rèn)是百分制)!在LLM+RAG這條道路上,實(shí)際上我們還有太多值得繼續(xù)探索和優(yōu)化的事情。
論文標(biāo)題:CRAG – Comprehensive RAG Benchmar
原文鏈接:2024KDD挑戰(zhàn)任務(wù),GPT-4僅得40分,Meta發(fā)布最新RAG評(píng)價(jià)基準(zhǔn)
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189