《大模型決策制定中的幻覺檢測》綜述
AIGC動態(tài)歡迎閱讀
原標題:《大模型決策制定中的幻覺檢測》綜述
關(guān)鍵字:模型,報告,幻覺,基礎(chǔ),任務(wù)
文章來源:人工智能學家
內(nèi)容字數(shù):6237字
內(nèi)容摘要:
來源:專知
自主系統(tǒng)很快將無處不在,從制造業(yè)自主性到農(nóng)業(yè)領(lǐng)域的機器人,再從醫(yī)療保健助手到娛樂產(chǎn)業(yè)。這些系統(tǒng)的大多數(shù)都是用于決策、規(guī)劃和控制的模塊化子組件開發(fā)的,這些子組件可能是手工設(shè)計的或基于學習的。雖然這些現(xiàn)有方法在它們特別設(shè)計的情況下已被證明表現(xiàn)良好,但在肯定會在測試時出現(xiàn)的罕見、分布外情景中,它們的表現(xiàn)可能特別差。基于多任務(wù)訓練、來自多個領(lǐng)域的大型數(shù)據(jù)集的基礎(chǔ)模型的興起,使研究人員相信這些模型可能提供現(xiàn)有規(guī)劃器所缺失的“常識”推理。研究人員認為,這種常識推理將彌合算法開發(fā)與部署到分布外任務(wù)之間的差距,就像人類適應意外情景一樣。大型語言模型已經(jīng)滲透到機器人和自主系統(tǒng)領(lǐng)域,研究人員正在爭先恐后地展示它們在部署中的例。雖然這一應用方向從經(jīng)驗上看非常有希望,但基礎(chǔ)模型已知會產(chǎn)生幻覺,并生成可能聽起來合理但實際上卻很差的決策。我們認為有必要同時退一步,設(shè)計可以量化模型決策確定性的系統(tǒng),并檢測何時可能產(chǎn)生幻覺。在這項工作中,我們討論了基礎(chǔ)模型用于決策任務(wù)的當前用例,提供了一個帶有示例的幻覺的一般定義,討論了現(xiàn)有的幻覺檢測和緩解方法,重點是決策問題,并探索了這一激動人心領(lǐng)域的進一步研究領(lǐng)
原文鏈接:《大模型決策制定中的幻覺檢測》綜述
聯(lián)系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)
相關(guān)文章
