UC伯克利等最新實(shí)錘:LLM就是比人類(lèi)啰嗦,「提問(wèn)的藝術(shù)」仍難參透
原標(biāo)題:UC伯克利等最新實(shí)錘:LLM就是比人類(lèi)啰嗦,「提問(wèn)的藝術(shù)」仍難參透
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):4592字
大模型VS人類(lèi):提問(wèn)模式的差異與意義
1. **研究概述:** 加州大學(xué)伯克利分校等機(jī)構(gòu)的研究人員對(duì)大模型(如GPT-4和LLaMA)的提問(wèn)能力進(jìn)行了系統(tǒng)評(píng)價(jià),并將其與人類(lèi)的提問(wèn)模式進(jìn)行了比較。研究基于的86萬(wàn)個(gè)段落,通過(guò)人類(lèi)參與者和AI模型分別提問(wèn)并對(duì)問(wèn)題進(jìn)行評(píng)估,最終揭示了二者顯著的差異。
2. **評(píng)價(jià)維度:** 研究從六個(gè)維度對(duì)問(wèn)題質(zhì)量進(jìn)行評(píng)估,分為兩組:?jiǎn)栴}本身的特性(問(wèn)題類(lèi)型、長(zhǎng)度、上下文覆蓋率、可回答程度、罕見(jiàn)性)以及答案的特性(答案所需長(zhǎng)度)。
3. **大模型與人類(lèi)提問(wèn)模式的差異:**
3.1 **問(wèn)題類(lèi)型:** 大模型更傾向于提出需要描述性、長(zhǎng)答案的問(wèn)題(約44%),而人類(lèi)更傾向于直接、基于事實(shí)的問(wèn)題(例如驗(yàn)證具體事實(shí)或人物信息)。
3.2 **問(wèn)題長(zhǎng)度:** 大模型生成的問(wèn)題更長(zhǎng),不同模型間差異也較大;人類(lèi)生成的問(wèn)題較短,且不同類(lèi)型問(wèn)題長(zhǎng)度差異顯著。
3.3 **上下文覆蓋:** 人類(lèi)的問(wèn)題更全面地覆蓋上下文信息,而大模型更傾向于關(guān)注文本的前后部分,忽略中間部分,且對(duì)細(xì)節(jié)的關(guān)注度更高。
3.4 **可回答程度:** 大模型生成問(wèn)題的可回答程度受上下文信息影響較大。當(dāng)文本包含足夠背景信息時(shí),問(wèn)題通常有清晰答案;但若缺乏上下文,大模型生成的問(wèn)題可回答性會(huì)顯著下降。
3.5 **答案長(zhǎng)度:** 大模型生成的問(wèn)題通常需要更長(zhǎng)、更詳細(xì)的答案,且答案的可壓縮性較差。
4. **研究意義:**
4.1 **改進(jìn)RAG系統(tǒng)和識(shí)別AI虛假信息:** 了解大模型獨(dú)特的提問(wèn)模式有助于改進(jìn)基于檢索的生成系統(tǒng)(RAG),并識(shí)別AI系統(tǒng)何時(shí)在編造事實(shí)。
4.2 **優(yōu)化提示詞:** 研究結(jié)果能指導(dǎo)用戶(hù)編寫(xiě)更有效的提示詞,從而引導(dǎo)大模型生成更符合需求的問(wèn)題。
4.3 **潛在影響:** 大模型生成的問(wèn)題日益普遍應(yīng)用于商業(yè)產(chǎn)品(例如購(gòu)物助手、搜索引擎),這將潛移默化地影響人類(lèi)的思考模式,例如可能導(dǎo)致過(guò)度關(guān)注細(xì)節(jié)或文本的頭尾部分。 但通過(guò)了解差異,我們可以對(duì)大模型的提問(wèn)模式進(jìn)行微調(diào)。
5. **未來(lái)研究方向:** 未來(lái)研究需要考察大模型面對(duì)更長(zhǎng)文本(例如書(shū)籍)時(shí)的提問(wèn)模式,以及不同文本類(lèi)型(例如不同學(xué)科、不同閱讀難度)的影響。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。