<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        六大維度,LLM「問題生成」首次正面PK人類!伯克利等發布最新研究

        AIGC動態8個月前發布 新智元
        309 0 0

        六大維度,LLM「問題生成」首次正面PK人類!伯克利等發布最新研究

        原標題:六大維度,LLM「問題生成」首次正面PK人類!伯克利等發布最新研究
        文章來源:新智元
        內容字數:5867字

        大型語言模型在問題生成中的行為傾向研究

        1. 研究背景:長期以來,問題生成(Question Generation,QG)任務依賴于自動化方法。大型語言模型(LLMs)的出現提升了QG的性能,但尚未深入研究LLMs生成問題的特點,例如長度、類型、上下文關注度等與人類生成的差異。

        2. 研究方法:加州大學伯克利分校等機構的研究人員提出了一種基于LLMs的自動化評估方法,對LLMs生成的問題與人類生成的問題進行了多維度對比。研究使用了兩個代表性LLMs:GPT-4o和LLaMA-3.1-70b-Instruct,并以WikiText數據集作為上下文,生成大量問題進行分析。評估指標包括問題長度、類型、上下文覆蓋范圍、可回答性、非常見性以及所需答案長度等。

        3. 主要發現:

        3.1 問題類型:LLMs傾向于生成需要描述性、較長答案的問題,尤其偏向于詢問具體事實和數字。與人類相比,LLMs較少生成需要跨多個事實進行推理的問題。

        3.2 問題長度:LLMs生成的問題長度與人類生成的問題長度大致相似(約20個單詞),但LLMs在長度上的偏好差異較小,而人類生成的問題長度變化更大。

        3.3 上下文覆蓋范圍:人類生成的問題更傾向于集中在上下文的開頭或結尾,而LLMs對整個上下文的關注更加均衡,與問答任務中人類的關注點相反。

        3.4 可回答性與非常見性:LLMs生成的問題在提供上下文時通常是可回答的。然而,去除上下文后,LLMs生成問題的回答質量顯著下降,表明LLMs生成的問題對于評估RAG系統或進行自動幻覺測試很有價值。GPT-4o生成的問題比人類構建的HotpotQA數據集顯示出更高比例的非常見問題。

        3.5 所需答案長度:LLMs生成的答案通常比人類標注的答案長得多。研究人員通過壓縮答案,在保持評分的同時顯著降低了答案長度。

        4. 研究意義:該研究首次揭示了LLMs在問題生成中的偏好,為評估下游應用(如RAG系統和幻覺檢測)的提示工程優化提供了經驗,有助于防止LLMs在不當情境下的濫用,并加深了對LLMs在問題生成中的行為傾向的理解。

        5. 結論:研究結果表明,LLMs在問題生成方面存在與人類不同的行為傾向。理解這些差異對于改進LLMs的性能,以及更好地利用LLMs進行各種下游任務至關重要。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲激情视频在线观看| 亚洲av无码成人黄网站在线观看| 日本成人在线免费观看| 亚洲午夜久久久久久久久电影网 | 亚洲AV成人无码网天堂| 暖暖免费在线中文日本| 色播在线永久免费视频| 亚洲AV无码一区二区二三区软件| 最近的2019免费中文字幕| 国产精品免费看久久久久| 亚洲高清视频免费| 久久国产精品免费一区| 午夜影视在线免费观看| 激情婷婷成人亚洲综合| 成人激情免费视频| 亚洲午夜未满十八勿入| 久久精品国产免费观看| 亚洲午夜福利在线观看| 久操视频免费观看| 亚洲a级在线观看| 日韩精品人妻系列无码专区免费| 亚洲综合精品网站| 日韩精品亚洲专区在线影视| 亚洲成a人在线看天堂无码| 亚洲欧美国产国产一区二区三区| 1000部啪啪毛片免费看| 日韩亚洲Av人人夜夜澡人人爽| 国产一区二区三区亚洲综合 | 国产成人精品免费视频软件| 免费无码一区二区| 国产精品成人免费综合| 人人爽人人爽人人片av免费| 四虎在线播放免费永久视频| 亚洲中文精品久久久久久不卡| 久久久久久精品免费看SSS| 亚洲成a∨人片在无码2023| 无码一区二区三区免费视频 | 日韩精品电影一区亚洲| 亚洲熟妇AV乱码在线观看| 亚洲一区二区三区在线播放| 69视频免费观看l|