<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        NeurIPS 2024 | 可信大模型新挑戰(zhàn):噪聲思維鏈提示下的魯棒推理,準(zhǔn)確率直降40%

        AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com當(dāng)前,大語(yǔ)言模型(Large Language Model, LLM)借助上下文學(xué)習(xí)(In-context Learning)和思維鏈提示(Chain of Thoughts Prompting),在許多復(fù)雜推理任務(wù)上展現(xiàn)出了強(qiáng)大的能力。然而,現(xiàn)有研究表明,LLM 在應(yīng)對(duì)噪聲輸入時(shí)存在明顯不足:當(dāng)輸入的問(wèn)題包含無(wú)關(guān)內(nèi)容,或者遭到輕微修改時(shí),模型極容易受到干擾,進(jìn)而偏離正確的推理方向。如圖 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是關(guān)于 base-9 計(jì)算的噪聲信息,該信息容易誤導(dǎo)模型輸出錯(cuò)誤的結(jié)果。圖 1. 噪聲問(wèn)題(Noisy Questions)和噪聲思維鏈(Noisy Rationales)的示例已有的魯棒研究大多側(cè)重于噪聲問(wèn)題(Noisy Questions),然而,LLM 在噪聲思維鏈(Noisy Rationales)下的推理還沒(méi)有得到充分的探究。在本工作中,我們將噪聲思維鏈定義為:包含不相關(guān)或者不準(zhǔn)確推理步驟的思維鏈,如圖 1 右側(cè) R1 中的「13 + 8 = 21」步驟,對(duì)于 base-9 計(jì)算來(lái)說(shuō),是錯(cuò)誤的推理步驟。這些噪聲思維鏈通常源自 LLM 的實(shí)際應(yīng)用,比如眾包平臺(tái)、對(duì)話(huà)系統(tǒng)、機(jī)器生成數(shù)據(jù)等場(chǎng)景,人類(lèi)和機(jī)器在推理中都會(huì)不可避免地犯錯(cuò),從而產(chǎn)生噪聲思維鏈。因此,噪聲思維鏈的實(shí)際影響和技術(shù)挑戰(zhàn)不容小覷。當(dāng)前,我們?nèi)匀徊磺宄?LLM 在面對(duì)噪聲思維鏈提示時(shí)的魯棒性能如何,也缺少有效的應(yīng)對(duì)策略。因此,非常有必要構(gòu)建一個(gè)新的數(shù)據(jù)集,用于系統(tǒng)評(píng)估當(dāng)前 LLM 在噪聲思維鏈場(chǎng)景下的魯棒性,以及驗(yàn)證相應(yīng)的魯棒推理策略。對(duì)此,我們構(gòu)建了 NoRa 數(shù)據(jù)集,并進(jìn)行了大量的實(shí)驗(yàn)評(píng)測(cè)。結(jié)果表明,GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等開(kāi)源或閉源 LLM 都極容易受到噪聲思維鏈的影響。其中,GPT-3.5-Turbo 的準(zhǔn)確率至多可降低 40.4%。因此,我們也呼吁大家更多地關(guān)注大模型推理的魯棒性問(wèn)題。我們的主要貢獻(xiàn)有如下三點(diǎn):新問(wèn)題:對(duì)當(dāng)前流行的思維鏈提示技術(shù),我們提出了尚未充分探究的噪聲思維鏈問(wèn)題(Noisy Rationales),并給出了詳細(xì)的問(wèn)題定義和統(tǒng)一的問(wèn)題建模;新數(shù)據(jù)集:我們構(gòu)建了 NoRa 數(shù)據(jù)集,用于評(píng)測(cè) LLM 在噪聲思維鏈提示下的推理魯棒性。我們使用 NoRa 數(shù)據(jù)集對(duì) LLM 展開(kāi)系統(tǒng)評(píng)估,揭露了 LLM 推理的魯棒性不足,數(shù)據(jù)去噪能力非常有限的問(wèn)題;新方法:我們?cè)O(shè)計(jì)了一種簡(jiǎn)單有效的方法(CD-CoT),基于單個(gè)正確的思維鏈?zhǔn)纠ゼm正噪聲思維鏈并完成推理,并通過(guò)大量實(shí)驗(yàn)驗(yàn)證了方法的有效性。接下來(lái)將從新問(wèn)題、新數(shù)據(jù)集、新方法這三個(gè)角度,簡(jiǎn)要地介紹我們關(guān)于大模型推理魯棒性的研究結(jié)果,相關(guān)論文已發(fā)表于 NeurIPS 2024 會(huì)議。論文標(biāo)題:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?論文鏈接:https://arxiv.org/pdf/2410.23856代碼鏈接:https://github.com/tmlr-group/NoisyRationalesslides 鏈接:https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf新問(wèn)題:Noisy Rationales思維鏈可以有效提升大模型的推理能力 [1]。具體來(lái)說(shuō),通過(guò)給出帶有中間推理步驟的示例,LLM 可以很快地適應(yīng)到新任務(wù)上,而無(wú)需進(jìn)行參數(shù)修改(見(jiàn)圖 2 右上角)。現(xiàn)有工作中,通常假設(shè)思維鏈包含清楚且正確的推理步驟,但實(shí)際情況可能并非如此。圖 2. 各種 setting 下的模型輸入目前,已經(jīng)有許多工作探索了 Noisy Questions 對(duì) LLM 推理性能的影響(見(jiàn)圖 2 左下角),揭示了 LLM 對(duì)輸入中微小修改的敏感性 [2,3]。然而,在人工標(biāo)注或機(jī)器生成的思維鏈中,可能會(huì)包含一些與問(wèn)題不相關(guān)或不準(zhǔn)確的推理步驟(見(jiàn)圖 2 右下角),這些噪聲思維鏈可能會(huì)對(duì)推理性能產(chǎn)生負(fù)面影響,但目前 LLM 對(duì)噪聲思維鏈(Noisy Rationales)的魯棒性依舊未知。因此,本文提出了新的研究問(wèn)題 Noisy Rationales:當(dāng)示例的推理步驟中包含無(wú)關(guān)的或者不準(zhǔn)確的內(nèi)容時(shí),LLM 的推理魯棒性如何?對(duì)這一問(wèn)題的探索,有助于深入理解和提升 LLM 在非完備場(chǎng)景中的推理能力。新數(shù)據(jù)集:NoRa為了評(píng)估 LLM 在噪聲思維鏈下的魯棒性,我們構(gòu)建了 NoRa(Noisy Rationales)數(shù)據(jù)集,NoRa 涵蓋了 3 種推理任務(wù)類(lèi)型:數(shù)學(xué)推理、符號(hào)推理和常識(shí)推理,共包含 26391 個(gè)問(wèn)題以及 5 種子任務(wù)。一條思維鏈(Rationale)包含多個(gè)連續(xù)的推理步驟(Thoughts);噪聲思維鏈(Noisy Rationale)包含的噪聲推理步驟(Noisy Thoughts)被定義為如下兩類(lèi)(示例見(jiàn)圖 3):不相關(guān)噪聲(Irrelevant Thoughts)是指對(duì)解決問(wèn)題無(wú)用的信息,如在推斷親屬關(guān)系時(shí)討論探討兄弟姐妹之間的基因重疊情況;不準(zhǔn)確噪聲(Inaccurate Thoughts)則是推理中的事實(shí)性錯(cuò)誤,如在特定進(jìn)制計(jì)算中使用錯(cuò)誤的計(jì)算規(guī)則。圖 3. NoRa 數(shù)據(jù)集的樣本在構(gòu)建數(shù)據(jù)集時(shí),我們通過(guò)插入 Noisy Thoughts 來(lái)生成噪聲思維鏈,這些噪聲僅影響推理鏈的細(xì)節(jié),而不改變問(wèn)題和最終答案的正確性。此外,我們使用不同的噪聲比例(Noise Ratio,即 Noisy Thoughts 占所 Thoughts 的比例,如 0.3、0.5、0.8)來(lái)控制任務(wù)的困難程度,Noise Ratio 越大任務(wù)難度也越大。NoRa 數(shù)據(jù)集的統(tǒng)計(jì)信息如圖 4 所示。圖 4. NoRa 數(shù)據(jù)集的統(tǒng)計(jì)信息NoRa 數(shù)據(jù)集 測(cè)評(píng)結(jié)果我們以 GPT-3.5-Turbo 為 base model,測(cè)試了其在 NoRa 上的表現(xiàn),并且對(duì)比了多種去噪方法。這些去噪方法可以分為兩類(lèi):自我糾正方法(Self-correction):包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5];自我一致性方法(Self-consistency):包括 SmoothLLM (SM) [6],Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。圖 5. 各種去噪方法 在 NoRa 數(shù)據(jù)集上的測(cè)評(píng)結(jié)果實(shí)驗(yàn)結(jié)果(圖 5)表明:無(wú)論采取哪種現(xiàn)有方法,LLM 都會(huì)受到噪聲思維鏈的嚴(yán)重影響。具體來(lái)說(shuō),存在不相關(guān)噪聲時(shí),各方法的性能下降了 0.2% – 25.3%;存在不準(zhǔn)確噪聲時(shí),各方法的性能下降了 0.1% – 54.0%;在 NoRa 的大多數(shù)任務(wù)中,自我糾正方法的表現(xiàn)不佳;自一致性方法可以在一定程度上緩解噪聲的影響,但無(wú)法做到真正的數(shù)據(jù)去噪。此外,我們還進(jìn)行了各種消融研究,來(lái)探索不同因素對(duì) NoRa 數(shù)據(jù)集評(píng)估結(jié)果的影響(見(jiàn)圖 6),我們發(fā)現(xiàn):調(diào)整溫度系數(shù)可以改善模型在噪聲思維鏈下的推理性能;使用更多的噪聲示例可以提高大多數(shù)任務(wù)的推理性能;不同的大語(yǔ)言模型普遍容易受到噪聲思維鏈的影響。圖 6. 消融實(shí)驗(yàn):(左) 溫度系數(shù)對(duì)性能的影響;(中) 示例個(gè)數(shù)對(duì)性能的影響;(右) 各種模型的性能新方法:CD-CoT根據(jù)測(cè)評(píng)結(jié)果,大語(yǔ)言模型在應(yīng)對(duì)噪聲思維鏈提示時(shí),其自身的去噪能力非常有限;即便使用自我糾正或自一致性方法,效果仍不理想。因此,我們認(rèn)為有必要引入外部監(jiān)督信號(hào)來(lái)增強(qiáng)模型魯棒性,且這種監(jiān)督信號(hào)既要足以實(shí)現(xiàn)去噪,又要在實(shí)際應(yīng)用中切實(shí)可行。對(duì)此,我們提出了一種簡(jiǎn)單有效的去噪推理方法, CD-CoT(Contrastive Denoising with Noisy Chain of Thoughts)。CD-CoT 借鑒了對(duì)比學(xué)習(xí)的思路,通過(guò)讓 LLM 顯式地對(duì)比有噪和干凈的思維鏈,從而識(shí)別出噪聲信息。方法主要包括四個(gè)關(guān)鍵步驟,步驟 1&2 進(jìn)行顯式的去噪,步驟 3&4 進(jìn)行精細(xì)推理并獲得最終答案。四個(gè)步驟具體如下:改寫(xiě)思維鏈:借助一個(gè)干凈的思維鏈?zhǔn)纠龑?dǎo) LLM 通過(guò)對(duì)比改寫(xiě)和糾正噪聲思維鏈,并生成多個(gè)改寫(xiě)的思維鏈(見(jiàn)圖 7 step1);選擇思維鏈:通過(guò)答案匹配,篩選出改寫(xiě)后答案不變的思維鏈,形成精煉的候選集;再?gòu)闹须S機(jī)選取一定數(shù)量的思維鏈,用于后續(xù)的推理(見(jiàn)圖 7 step2);探索推理鏈:將選取的思維鏈排列成不同的上下文,與目標(biāo)問(wèn)題一同輸入給 LLM,并采用較高的溫度參數(shù)進(jìn)行多次重復(fù)推理,以探索多樣的推理路徑(見(jiàn)圖 8 step3);答案投票:將所有得到的答案進(jìn)行投票,得到最終答案(見(jiàn)圖 8 step4)。完整的 CD-CoT 算法請(qǐng)見(jiàn)圖 9。圖 7. CD-CoT 算法的步驟 1&2圖 8. CD-CoT 算法的步驟 3&4圖 9. 完整的 CD-CoT 算法CD-CoT 實(shí)驗(yàn)結(jié)果我們?cè)?NoRa 數(shù)據(jù)集上全面測(cè)試了 CD-CoT,并對(duì)比了多個(gè)需要額外監(jiān)督信息的去噪方法(見(jiàn)圖 10),我們發(fā)現(xiàn):當(dāng)面對(duì)噪聲思維鏈時(shí),與 base model 相比,CD-CoT 在所有數(shù)據(jù)集上的性能均有顯著提升,準(zhǔn)確率平均提升幅度達(dá)到 17.8%;CD-CoT 對(duì)高噪聲表現(xiàn)出顯著的抵抗力,尤其在更具挑戰(zhàn)的數(shù)學(xué)推理任務(wù)中。圖 10. 各種需要額外監(jiān)督信息的方法 在 NoRa 數(shù)據(jù)集上的測(cè)評(píng)結(jié)果此外,通過(guò)諸多消融實(shí)驗(yàn),我們發(fā)現(xiàn):關(guān)于 CD-CoT 超參數(shù)的消融實(shí)驗(yàn)結(jié)果顯示,干凈的思維鏈?zhǔn)纠?CD-CoT 中扮演著關(guān)鍵的角色;當(dāng)變化 N,M,C 等超參數(shù)的取值時(shí),準(zhǔn)確性?xún)H呈現(xiàn)出細(xì)微的變化(見(jiàn)圖 11)。在論文中,我們默認(rèn)采用 M 設(shè)為 2 的 CD-CoT 示例,以在效率和效果之間取得平衡;CD-CoT 在不同的 LLM 上具有良好的泛化能力,與 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其準(zhǔn)確率分別提高了 23.4% 和 21.6%,并超越了所有基線(xiàn)方法(見(jiàn)圖 12)。圖 11. 關(guān)于 CD-CoT 超參數(shù)的消融研究圖 12. 關(guān)于 CD-CoT 在不同 LLM 上的效果的消融研究更多的實(shí)驗(yàn)分析和技術(shù)細(xì)節(jié),請(qǐng)移步參閱我們的論文及源碼,我們也將持續(xù)更新本工作的內(nèi)容。我們希望通過(guò)這項(xiàng)工作,呼吁人們更多地關(guān)注 LLM 推理的魯棒性問(wèn)題,并開(kāi)展關(guān)于大模型推理魯棒性的探討與研究。非常感謝大家關(guān)注我們的工作!參考文獻(xiàn)[1] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022.[2] Shi F, Chen X, Misra K, et al. Large language models can be easily distracted by irrelevant context. ICML 2023.[3] Tian Q, Zhu H, Wang L, et al. R3 Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context. EMNLP 2023.[4] Huang J, Chen X, Mishra S, et al. Large language models cannot self-correct reasoning yet. ICLR 2024.[5] Xi Z, Jin S, Zhou Y, et al. Self-polish: Enhance reasoning in large language models via problem refinement. EMNLP 2023.[6] Robey A, Wong E, Hassani H, et al. Smoothllm: Defending large language models against jailbreaking attacks. Arxiv 2023.[7] Zhang Z, Zhang G, Hou B, et al. Certified robustness for large language models with self-denoising. Arxiv 2023.[8] Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.課題組介紹香港浸會(huì)大學(xué)可信機(jī)器學(xué)習(xí)和推理課題組 (TMLR Group) 由多名青年教授、博士后研究員、博士生、訪問(wèn)博士生和研究助理共同組成,課題組隸屬于理學(xué)院計(jì)算機(jī)系。課題組專(zhuān)攻可信表征學(xué)習(xí)、可信基礎(chǔ)模型、基于因果推理的可信學(xué)習(xí)等相關(guān)的算法,理論和系統(tǒng)設(shè)計(jì)以及在自然科學(xué)上的應(yīng)用,具體研究方向和相關(guān)成果詳見(jiàn)本組 GitHub (https://github.com/tmlr-group)。課題組由科研基金以及工業(yè)界科研基金資助,如香港研究資助局杰出青年學(xué)者計(jì)劃,國(guó)家自然科學(xué)基金面上項(xiàng)目和青年項(xiàng)目,以及微軟、英偉達(dá)、字節(jié)跳動(dòng)、百度、阿里、騰訊等企業(yè)的科研基金。青年教授和資深研究員手把手帶,GPU 計(jì)算資源充足,長(zhǎng)期招收多名博士后研究員、博士生、研究助理和研究實(shí)習(xí)生。此外,本組也歡迎自費(fèi)的訪問(wèn)博士后研究員、博士生和研究助理申請(qǐng),訪問(wèn)至少 3-6 個(gè)月,支持遠(yuǎn)程訪問(wèn)。有興趣的同學(xué)請(qǐng)發(fā)送個(gè)人簡(jiǎn)歷和初步研究計(jì)劃到郵箱 (bhanml@comp.hkbu.edu.hk)。?THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲 日韩 色 图网站| 亚洲免费视频网站| 亚洲精品动漫免费二区| 成人人观看的免费毛片| 亚洲欧美成人一区二区三区| 免费精品国偷自产在线在线| 国产精品高清视亚洲精品| 日本免费网站在线观看| 美女视频免费看一区二区| 爱情岛论坛网亚洲品质自拍| 一区二区三区在线免费观看视频| 国产精品亚洲mnbav网站| 99久久精品毛片免费播放| 亚洲网站视频在线观看| 久久精品免费全国观看国产| 亚洲爆乳无码精品AAA片蜜桃| 四虎AV永久在线精品免费观看| 麻豆91免费视频| 国产亚洲av片在线观看16女人| 美女内射无套日韩免费播放| 亚洲av产在线精品亚洲第一站| 日本免费无遮挡吸乳视频电影| 一级做a爰片久久毛片免费看 | 国产精品小视频免费无限app | va天堂va亚洲va影视中文字幕| 妞干网在线免费观看| 日韩在线视频线视频免费网站| 亚洲AV无码精品色午夜在线观看| AV无码免费永久在线观看| 国产亚洲福利精品一区二区| 国产精品国产亚洲精品看不卡| 57PAO成人国产永久免费视频| 日韩成人精品日本亚洲| 亚洲色成人中文字幕网站| 麻豆视频免费观看| 国产精品亚洲а∨无码播放不卡| 狠狠色伊人亚洲综合成人| 美女视频黄a视频全免费| 一级做a爰片久久毛片免费陪| 亚洲色图校园春色| 亚洲国产成人精品91久久久|