UC伯克利等最新實錘：LLM就是比人類啰嗦，「提問的藝術」仍難參透

原標題：UC伯克利等最新實錘：LLM就是比人類啰嗦，「提問的藝術」仍難參透
文章來源：新智元
內容字數：4592字

1. **研究概述:** 加州大學伯克利分校等機構的研究人員對大模型（如GPT-4和LLaMA）的提問能力進行了系統評價，并將其與人類的提問模式進行了比較。研究基于的86萬個段落，通過人類參與者和AI模型分別提問并對問題進行評估，最終揭示了二者顯著的差異。

2. **評價維度:** 研究從六個維度對問題質量進行評估，分為兩組：問題本身的特性（問題類型、長度、上下文覆蓋率、可回答程度、罕見性）以及答案的特性（答案所需長度）。

3. **大模型與人類提問模式的差異:**

3.1 **問題類型:** 大模型更傾向于提出需要描述性、長答案的問題（約44%），而人類更傾向于直接、基于事實的問題（例如驗證具體事實或人物信息）。

3.2 **問題長度:** 大模型生成的問題更長，不同模型間差異也較大；人類生成的問題較短，且不同類型問題長度差異顯著。

3.3 **上下文覆蓋:** 人類的問題更全面地覆蓋上下文信息，而大模型更傾向于關注文本的前后部分，忽略中間部分，且對細節的關注度更高。

3.4 **可回答程度:** 大模型生成問題的可回答程度受上下文信息影響較大。當文本包含足夠背景信息時，問題通常有清晰答案；但若缺乏上下文，大模型生成的問題可回答性會顯著下降。

3.5 **答案長度:** 大模型生成的問題通常需要更長、更詳細的答案，且答案的可壓縮性較差。

4. **研究意義:**

4.1 **改進RAG系統和識別AI虛假信息:** 了解大模型獨特的提問模式有助于改進基于檢索的生成系統(RAG)，并識別AI系統何時在編造事實。

4.2 **優化提示詞:** 研究結果能指導用戶編寫更有效的提示詞，從而引導大模型生成更符合需求的問題。

4.3 **潛在影響:** 大模型生成的問題日益普遍應用于商業產品（例如購物助手、搜索引擎），這將潛移默化地影響人類的思考模式，例如可能導致過度關注細節或文本的頭尾部分。但通過了解差異，我們可以對大模型的提問模式進行微調。

5. **未來研究方向:** 未來研究需要考察大模型面對更長文本（例如書籍）時的提問模式，以及不同文本類型（例如不同學科、不同閱讀難度）的影響。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...