国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

NeurIPS 2024 | 可信大模型新挑戰:噪聲思維鏈提示下的魯棒推理,準確率直降40%

AIGC動態9個月前發布 機器之心
418 0 0

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com當前,大語言模型(Large Language Model, LLM)借助上下文學習(In-context Learning)和思維鏈提示(Chain of Thoughts Prompting),在許多復雜推理任務上展現出了強大的能力。然而,現有研究表明,LLM 在應對噪聲輸入時存在明顯不足:當輸入的問題包含無關內容,或者遭到輕微修改時,模型極容易受到干擾,進而偏離正確的推理方向。如圖 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是關于 base-9 計算的噪聲信息,該信息容易誤導模型輸出錯誤的結果。圖 1. 噪聲問題(Noisy Questions)和噪聲思維鏈(Noisy Rationales)的示例已有的魯棒研究大多側重于噪聲問題(Noisy Questions),然而,LLM 在噪聲思維鏈(Noisy Rationales)下的推理還沒有得到充分的探究。在本工作中,我們將噪聲思維鏈定義為:包含不相關或者不準確推理步驟的思維鏈,如圖 1 右側 R1 中的「13 + 8 = 21」步驟,對于 base-9 計算來說,是錯誤的推理步驟。這些噪聲思維鏈通常源自 LLM 的實際應用,比如眾包平臺、對話系統、機器生成數據等場景,人類和機器在推理中都會不可避免地犯錯,從而產生噪聲思維鏈。因此,噪聲思維鏈的實際影響和技術挑戰不容小覷。當前,我們仍然不清楚 LLM 在面對噪聲思維鏈提示時的魯棒性能如何,也缺少有效的應對策略。因此,非常有必要構建一個新的數據集,用于系統評估當前 LLM 在噪聲思維鏈場景下的魯棒性,以及驗證相應的魯棒推理策略。對此,我們構建了 NoRa 數據集,并進行了大量的實驗評測。結果表明,GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等開源或閉源 LLM 都極容易受到噪聲思維鏈的影響。其中,GPT-3.5-Turbo 的準確率至多可降低 40.4%。因此,我們也呼吁大家更多地關注大模型推理的魯棒性問題。我們的主要貢獻有如下三點:新問題:對當前流行的思維鏈提示技術,我們提出了尚未充分探究的噪聲思維鏈問題(Noisy Rationales),并給出了詳細的問題定義和統一的問題建模;新數據集:我們構建了 NoRa 數據集,用于評測 LLM 在噪聲思維鏈提示下的推理魯棒性。我們使用 NoRa 數據集對 LLM 展開系統評估,揭露了 LLM 推理的魯棒性不足,數據去噪能力非常有限的問題;新方法:我們設計了一種簡單有效的方法(CD-CoT),基于單個正確的思維鏈示例,去糾正噪聲思維鏈并完成推理,并通過大量實驗驗證了方法的有效性。接下來將從新問題、新數據集、新方法這三個角度,簡要地介紹我們關于大模型推理魯棒性的研究結果,相關論文已發表于 NeurIPS 2024 會議。論文標題:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?論文鏈接:https://arxiv.org/pdf/2410.23856代碼鏈接:https://github.com/tmlr-group/NoisyRationalesslides 鏈接:https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf新問題:Noisy Rationales思維鏈可以有效提升大模型的推理能力 [1]。具體來說,通過給出帶有中間推理步驟的示例,LLM 可以很快地適應到新任務上,而無需進行參數修改(見圖 2 右上角)。現有工作中,通常假設思維鏈包含清楚且正確的推理步驟,但實際情況可能并非如此。圖 2. 各種 setting 下的模型輸入目前,已經有許多工作探索了 Noisy Questions 對 LLM 推理性能的影響(見圖 2 左下角),揭示了 LLM 對輸入中微小修改的敏感性 [2,3]。然而,在人工標注或機器生成的思維鏈中,可能會包含一些與問題不相關或不準確的推理步驟(見圖 2 右下角),這些噪聲思維鏈可能會對推理性能產生負面影響,但目前 LLM 對噪聲思維鏈(Noisy Rationales)的魯棒性依舊未知。因此,本文提出了新的研究問題 Noisy Rationales:當示例的推理步驟中包含無關的或者不準確的內容時,LLM 的推理魯棒性如何?對這一問題的探索,有助于深入理解和提升 LLM 在非完備場景中的推理能力。新數據集:NoRa為了評估 LLM 在噪聲思維鏈下的魯棒性,我們構建了 NoRa(Noisy Rationales)數據集,NoRa 涵蓋了 3 種推理任務類型:數學推理、符號推理和常識推理,共包含 26391 個問題以及 5 種子任務。一條思維鏈(Rationale)包含多個連續的推理步驟(Thoughts);噪聲思維鏈(Noisy Rationale)包含的噪聲推理步驟(Noisy Thoughts)被定義為如下兩類(示例見圖 3):不相關噪聲(Irrelevant Thoughts)是指對解決問題無用的信息,如在推斷親屬關系時討論探討兄弟姐妹之間的基因重疊情況;不準確噪聲(Inaccurate Thoughts)則是推理中的事實性錯誤,如在特定進制計算中使用錯誤的計算規則。圖 3. NoRa 數據集的樣本在構建數據集時,我們通過插入 Noisy Thoughts 來生成噪聲思維鏈,這些噪聲僅影響推理鏈的細節,而不改變問題和最終答案的正確性。此外,我們使用不同的噪聲比例(Noise Ratio,即 Noisy Thoughts 占所 Thoughts 的比例,如 0.3、0.5、0.8)來控制任務的困難程度,Noise Ratio 越大任務難度也越大。NoRa 數據集的統計信息如圖 4 所示。圖 4. NoRa 數據集的統計信息NoRa 數據集 測評結果我們以 GPT-3.5-Turbo 為 base model,測試了其在 NoRa 上的表現,并且對比了多種去噪方法。這些去噪方法可以分為兩類:自我糾正方法(Self-correction):包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5];自我一致性方法(Self-consistency):包括 SmoothLLM (SM) [6],Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。圖 5. 各種去噪方法 在 NoRa 數據集上的測評結果實驗結果(圖 5)表明:無論采取哪種現有方法,LLM 都會受到噪聲思維鏈的嚴重影響。具體來說,存在不相關噪聲時,各方法的性能下降了 0.2% – 25.3%;存在不準確噪聲時,各方法的性能下降了 0.1% – 54.0%;在 NoRa 的大多數任務中,自我糾正方法的表現不佳;自一致性方法可以在一定程度上緩解噪聲的影響,但無法做到真正的數據去噪。此外,我們還進行了各種消融研究,來探索不同因素對 NoRa 數據集評估結果的影響(見圖 6),我們發現:調整溫度系數可以改善模型在噪聲思維鏈下的推理性能;使用更多的噪聲示例可以提高大多數任務的推理性能;不同的大語言模型普遍容易受到噪聲思維鏈的影響。圖 6. 消融實驗:(左) 溫度系數對性能的影響;(中) 示例個數對性能的影響;(右) 各種模型的性能新方法:CD-CoT根據測評結果,大語言模型在應對噪聲思維鏈提示時,其自身的去噪能力非常有限;即便使用自我糾正或自一致性方法,效果仍不理想。因此,我們認為有必要引入外部監督信號來增強模型魯棒性,且這種監督信號既要足以實現去噪,又要在實際應用中切實可行。對此,我們提出了一種簡單有效的去噪推理方法, CD-CoT(Contrastive Denoising with Noisy Chain of Thoughts)。CD-CoT 借鑒了對比學習的思路,通過讓 LLM 顯式地對比有噪和干凈的思維鏈,從而識別出噪聲信息。方法主要包括四個關鍵步驟,步驟 1&2 進行顯式的去噪,步驟 3&4 進行精細推理并獲得最終答案。四個步驟具體如下:改寫思維鏈:借助一個干凈的思維鏈示例,引導 LLM 通過對比改寫和糾正噪聲思維鏈,并生成多個改寫的思維鏈(見圖 7 step1);選擇思維鏈:通過答案匹配,篩選出改寫后答案不變的思維鏈,形成精煉的候選集;再從中隨機選取一定數量的思維鏈,用于后續的推理(見圖 7 step2);探索推理鏈:將選取的思維鏈排列成不同的上下文,與目標問題一同輸入給 LLM,并采用較高的溫度參數進行多次重復推理,以探索多樣的推理路徑(見圖 8 step3);答案投票:將所有得到的答案進行投票,得到最終答案(見圖 8 step4)。完整的 CD-CoT 算法請見圖 9。圖 7. CD-CoT 算法的步驟 1&2圖 8. CD-CoT 算法的步驟 3&4圖 9. 完整的 CD-CoT 算法CD-CoT 實驗結果我們在 NoRa 數據集上全面測試了 CD-CoT,并對比了多個需要額外監督信息的去噪方法(見圖 10),我們發現:當面對噪聲思維鏈時,與 base model 相比,CD-CoT 在所有數據集上的性能均有顯著提升,準確率平均提升幅度達到 17.8%;CD-CoT 對高噪聲表現出顯著的抵抗力,尤其在更具挑戰的數學推理任務中。圖 10. 各種需要額外監督信息的方法 在 NoRa 數據集上的測評結果此外,通過諸多消融實驗,我們發現:關于 CD-CoT 超參數的消融實驗結果顯示,干凈的思維鏈示例在 CD-CoT 中扮演著關鍵的角色;當變化 N,M,C 等超參數的取值時,準確性僅呈現出細微的變化(見圖 11)。在論文中,我們默認采用 M 設為 2 的 CD-CoT 示例,以在效率和效果之間取得平衡;CD-CoT 在不同的 LLM 上具有良好的泛化能力,與 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其準確率分別提高了 23.4% 和 21.6%,并超越了所有基線方法(見圖 12)。圖 11. 關于 CD-CoT 超參數的消融研究圖 12. 關于 CD-CoT 在不同 LLM 上的效果的消融研究更多的實驗分析和技術細節,請移步參閱我們的論文及源碼,我們也將持續更新本工作的內容。我們希望通過這項工作,呼吁人們更多地關注 LLM 推理的魯棒性問題,并開展關于大模型推理魯棒性的探討與研究。非常感謝大家關注我們的工作!參考文獻[1] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022.[2] Shi F, Chen X, Misra K, et al. Large language models can be easily distracted by irrelevant context. ICML 2023.[3] Tian Q, Zhu H, Wang L, et al. R3 Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context. EMNLP 2023.[4] Huang J, Chen X, Mishra S, et al. Large language models cannot self-correct reasoning yet. ICLR 2024.[5] Xi Z, Jin S, Zhou Y, et al. Self-polish: Enhance reasoning in large language models via problem refinement. EMNLP 2023.[6] Robey A, Wong E, Hassani H, et al. Smoothllm: Defending large language models against jailbreaking attacks. Arxiv 2023.[7] Zhang Z, Zhang G, Hou B, et al. Certified robustness for large language models with self-denoising. Arxiv 2023.[8] Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.課題組介紹香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士后研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬于理學院計算機系。課題組專攻可信表征學習、可信基礎模型、基于因果推理的可信學習等相關的算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組 GitHub (https://github.com/tmlr-group)。課題組由科研基金以及工業界科研基金資助,如香港研究資助局杰出青年學者計劃,國家自然科學基金面上項目和青年項目,以及微軟、英偉達、字節跳動、百度、阿里、騰訊等企業的科研基金。青年教授和資深研究員手把手帶,GPU 計算資源充足,長期招收多名博士后研究員、博士生、研究助理和研究實習生。此外,本組也歡迎自費的訪問博士后研究員、博士生和研究助理申請,訪問至少 3-6 個月,支持遠程訪問。有興趣的同學請發送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。?THE END轉載請聯系本公眾號獲得授權投稿或尋求報道:liyazhou@jiqizhixin.com

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        精品日韩成人av| 日韩专区欧美专区| 亚洲欧洲另类国产综合| 成人亚洲一区二区一| 欧美精彩视频一区二区三区| 福利视频网站一区二区三区| 国产精品久久久久久久蜜臀| 91亚洲精品久久久蜜桃| 亚洲一区二区视频在线| 欧美肥妇毛茸茸| 国产在线视频精品一区| 中文字幕成人av| 欧美日韩国产另类不卡| 国内精品视频666| 亚洲色欲色欲www在线观看| 欧美精品日日鲁夜夜添| 国产成人在线视频网址| 伊人性伊人情综合网| 欧美一区二区在线视频| 丁香另类激情小说| 日韩黄色小视频| 国产精品毛片高清在线完整版| 欧美日韩精品一区二区三区蜜桃 | 亚洲电影第三页| 久久综合999| 91久久精品国产91性色tv| 久久aⅴ国产欧美74aaa| 最近日韩中文字幕| 欧美成人一区二区三区片免费| 成人综合激情网| 日本不卡一二三| 亚洲日本免费电影| 精品国产乱码久久久久久蜜臀| 一本大道久久精品懂色aⅴ | 亚洲美女屁股眼交3| 2021久久国产精品不只是精品| 色婷婷av一区二区三区大白胸 | 亚洲欧美日韩一区二区| 久久久激情视频| 欧美高清性hdvideosex| 91丨porny丨在线| 国产精品中文字幕一区二区三区| 一区二区三区四区乱视频| 国产精品久久久久一区二区三区共 | 中文字幕av一区二区三区免费看| 91精品一区二区三区在线观看| av在线综合网| 成人小视频免费观看| 精品一区二区在线观看| 蜜臀久久99精品久久久久宅男| 亚洲狠狠爱一区二区三区| 国产精品麻豆99久久久久久| 精品不卡在线视频| 日韩精品一区二区三区四区视频 | 欧美人伦禁忌dvd放荡欲情| 91天堂素人约啪| 波多野结衣亚洲一区| 处破女av一区二区| 国产精品一二三区| 国产成人亚洲综合a∨猫咪| 精品一区二区三区在线播放视频| 天堂一区二区在线免费观看| 亚洲成人免费av| 天堂午夜影视日韩欧美一区二区| 五月天亚洲婷婷| 日本亚洲天堂网| 蜜臀91精品一区二区三区 | 中文字幕成人在线观看| 中文一区二区在线观看| 国产精品久久久久久久久快鸭 | 欧美日韩国产电影| 欧美久久一区二区| 欧美成人精品1314www| 欧美不卡视频一区| 亚洲国产精品二十页| 亚洲三级在线免费观看| 一区二区三区免费网站| 天天影视网天天综合色在线播放| 免费在线观看日韩欧美| 国产真实精品久久二三区| 国产91精品免费| 在线视频国内一区二区| 欧美精品三级在线观看| 久久久午夜精品| 亚洲欧美一区二区在线观看| 亚洲一区影音先锋| 久久不见久久见中文字幕免费| 国产一区在线精品| 色婷婷综合久久久中文一区二区| 欧美一区二区不卡视频| 亚洲国产精品二十页| 天使萌一区二区三区免费观看| 国产高清在线精品| 欧美日韩一区二区三区视频| 欧美mv日韩mv亚洲| 亚洲精品免费播放| 青青草伊人久久| 99国产欧美另类久久久精品| 日韩一区二区三区观看| 亚洲男人的天堂在线aⅴ视频 | 久久成人综合网| av在线不卡观看免费观看| 欧美日本韩国一区| 中文字幕一区三区| 狠狠色狠狠色综合日日91app| 色综合久久66| 久久精品国产亚洲高清剧情介绍 | 国产精品国产三级国产三级人妇| 中文字幕免费一区| 婷婷久久综合九色综合绿巨人| 国内精品不卡在线| www.日韩av| 日韩欧美一区中文| 亚洲免费观看在线观看| 国产精品原创巨作av| 欧美卡1卡2卡| 亚洲图片有声小说| 成人97人人超碰人人99| 欧美精品一区在线观看| 日本不卡一区二区三区高清视频| 亚洲精品一区二区三区蜜桃下载 | 99re成人精品视频| 国产欧美一区二区三区在线看蜜臀| 蜜桃视频免费观看一区| 欧美日韩国产小视频| 亚洲欧美一区二区三区久本道91| 国产精一区二区三区| 日韩欧美123| 日韩av网站在线观看| 在线不卡欧美精品一区二区三区| 亚洲国产精品麻豆| 欧美中文字幕久久| 一区二区三区在线看| 色欧美日韩亚洲| 亚洲靠逼com| 色综合天天综合网天天狠天天| 国产精品久久久久久久裸模| 成人黄色电影在线| 亚洲欧洲av在线| 91在线精品一区二区三区| 亚洲天堂精品视频| 在线观看日韩国产| 亚洲国产综合色| 欧美一区二区三区精品| 美腿丝袜亚洲色图| 久久精品日韩一区二区三区| 成人在线视频一区二区| 中文字幕字幕中文在线中不卡视频| 99re这里只有精品6| 亚洲一区二三区| 欧美日韩国产小视频| 久久99在线观看| 亚洲国产精品精华液2区45| 91免费国产视频网站| 亚洲一区二区欧美激情| 欧美一区二区三区日韩视频| 国产精品99久久久久久宅男| 中文字幕日韩一区| 欧美三级电影在线观看| 捆绑调教一区二区三区| 国产精品三级久久久久三级| 欧美色图免费看| 久草在线在线精品观看| 亚洲欧洲日韩在线| 欧美日韩国产美| 粉嫩一区二区三区性色av| 亚洲综合在线免费观看| 欧美一级久久久久久久大片| 国产精品一级二级三级| 婷婷开心激情综合| 中文字幕不卡在线| 欧美精品丝袜久久久中文字幕| 国产一区二区主播在线| 亚洲国产一区二区a毛片| 久久久久亚洲蜜桃| 欧美午夜片在线观看| 国产99久久久久久免费看农村| 亚洲国产日韩综合久久精品| 久久综合久久综合九色| 欧美日韩激情在线| 99免费精品视频| 国产一区二区在线观看免费| 亚洲国产色一区| 成人免费在线观看入口| 日韩视频一区二区| 色呦呦网站一区| 国产精品一二一区| 奇米精品一区二区三区在线观看一| 综合久久给合久久狠狠狠97色| 欧美电影免费观看高清完整版在线| 色先锋资源久久综合| 成人高清免费观看| 国产综合久久久久影院| 精品中文字幕一区二区| 日本aⅴ亚洲精品中文乱码| 亚洲图片欧美色图| 一区二区在线电影| 中文字幕亚洲区| 一区在线中文字幕| 国产精品人妖ts系列视频|