英偉達(dá)新對(duì)話QA模型準(zhǔn)確度超GPT-4，卻遭吐槽：無權(quán)重代碼意義不大

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：英偉達(dá)新對(duì)話QA模型準(zhǔn)確度超GPT-4，卻遭吐槽：無權(quán)重代碼意義不大
關(guān)鍵字：模型,研究者,數(shù)據(jù),上下文,指令
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：7875字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：大盤雞、杜偉昨天，Meta、紐約大學(xué)的研究者用「自我獎(jiǎng)勵(lì)方法」，讓大模型自己生成自己的微調(diào)數(shù)據(jù)，從而在 Llama 2 70B 的迭代微調(diào)后超越了 GPT-4。今天，英偉達(dá)的全新對(duì)話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數(shù)據(jù)的情況下，在 10 個(gè)對(duì)話 QA 數(shù)據(jù)集上的平均得分略勝于 GPT-4。一年多來，ChatGPT 及后續(xù)產(chǎn)品引發(fā)了生產(chǎn)和研究社區(qū)中構(gòu)建問答（QA）模型的范式轉(zhuǎn)變。尤其是在實(shí)際應(yīng)用中，QA 模型在以下情況成為首選：
用戶能夠以對(duì)話方式與 QA 模型進(jìn)行交互，并可以輕松提出后續(xù)問題；
通才模型能夠以零樣本方式生成答案，無需針對(duì)數(shù)據(jù)集進(jìn)行微調(diào)，同時(shí)媲美微調(diào)專家模型的準(zhǔn)確度；
QA 模型能夠在開放域或長文檔設(shè)置中集成檢索到的證據(jù)塊，提供的上下文比 LLM 的上下文窗口長得多。
不過對(duì)于研究界而言，構(gòu)建一個(gè)能夠媲美 GPT-4 等 SOTA 黑箱模型準(zhǔn)確度的對(duì)話 QA 模型仍是一個(gè)巨大挑戰(zhàn)。
近日，在英偉達(dá)的一篇論文中，研究者提出了一個(gè)具有 GPT-4 級(jí)別準(zhǔn)確度的白箱對(duì)話 QA 模型 ChatQA 70B。他們采用了兩階段指令調(diào)優(yōu)

原文鏈接：英偉達(dá)新對(duì)話QA模型準(zhǔn)確度超GPT-4，卻遭吐槽：無權(quán)重代碼意義不大