原標題:六大維度,LLM「問題生成」首次正面PK人類!伯克利等發布最新研究
文章來源:新智元
內容字數:5867字
大型語言模型在問題生成中的行為傾向研究
1. 研究背景:長期以來,問題生成(Question Generation,QG)任務依賴于自動化方法。大型語言模型(LLMs)的出現提升了QG的性能,但尚未深入研究LLMs生成問題的特點,例如長度、類型、上下文關注度等與人類生成的差異。
2. 研究方法:加州大學伯克利分校等機構的研究人員提出了一種基于LLMs的自動化評估方法,對LLMs生成的問題與人類生成的問題進行了多維度對比。研究使用了兩個代表性LLMs:GPT-4o和LLaMA-3.1-70b-Instruct,并以WikiText數據集作為上下文,生成大量問題進行分析。評估指標包括問題長度、類型、上下文覆蓋范圍、可回答性、非常見性以及所需答案長度等。
3. 主要發現:
3.1 問題類型:LLMs傾向于生成需要描述性、較長答案的問題,尤其偏向于詢問具體事實和數字。與人類相比,LLMs較少生成需要跨多個事實進行推理的問題。
3.2 問題長度:LLMs生成的問題長度與人類生成的問題長度大致相似(約20個單詞),但LLMs在長度上的偏好差異較小,而人類生成的問題長度變化更大。
3.3 上下文覆蓋范圍:人類生成的問題更傾向于集中在上下文的開頭或結尾,而LLMs對整個上下文的關注更加均衡,與問答任務中人類的關注點相反。
3.4 可回答性與非常見性:LLMs生成的問題在提供上下文時通常是可回答的。然而,去除上下文后,LLMs生成問題的回答質量顯著下降,表明LLMs生成的問題對于評估RAG系統或進行自動幻覺測試很有價值。GPT-4o生成的問題比人類構建的HotpotQA數據集顯示出更高比例的非常見問題。
3.5 所需答案長度:LLMs生成的答案通常比人類標注的答案長得多。研究人員通過壓縮答案,在保持評分的同時顯著降低了答案長度。
4. 研究意義:該研究首次揭示了LLMs在問題生成中的偏好,為評估下游應用(如RAG系統和幻覺檢測)的提示工程優化提供了經驗,有助于防止LLMs在不當情境下的濫用,并加深了對LLMs在問題生成中的行為傾向的理解。
5. 結論:研究結果表明,LLMs在問題生成方面存在與人類不同的行為傾向。理解這些差異對于改進LLMs的性能,以及更好地利用LLMs進行各種下游任務至關重要。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。