今日arXiv最熱NLP大模型論文：對(duì)指令太敏感？山東大學(xué)提出一致性對(duì)齊法，治好大模型敏感體質(zhì)！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：今日arXiv最熱NLP大模型論文：對(duì)指令太敏感？山東大學(xué)提出一致性對(duì)齊法，治好大模型敏感體質(zhì)！
關(guān)鍵字：指令,模型,任務(wù),測(cè)試,本文
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：6753字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | Axe_越不知道大家在使用大語(yǔ)言模型（LLM）的時(shí)候有沒(méi)有遇到過(guò)，明明一模一樣的意思，哪怕只有一兩個(gè)字不同的指令給到大模型后，都會(huì)得到完全不一樣的結(jié)果。這種大模型神秘的玄學(xué)力量所帶來(lái)的不一致體驗(yàn)，也深深折磨著廣大Prompt工程師。
那到底怎么才能讓LLM“情緒穩(wěn)定”，不再那么敏感呢？
盡管近年來(lái)對(duì)于LLM不一致問(wèn)題的成因和解決方案都有了一定研究，仍然缺乏對(duì)當(dāng)前LLM魯棒性（robustness）的定量分析，以及改進(jìn)LLM指令調(diào)優(yōu)（Instruction-tuning）的系統(tǒng)解決方案。這里我們就要推出今天的這篇文章了，它首先定義了LLM魯棒性度量方法，并在多個(gè)不同尺寸的LLM上進(jìn)行了魯棒性的定量分析。
此外，為提高LLM魯棒性，以緩解響應(yīng)不一致問(wèn)題，這篇文章還提出了一個(gè)兩階段的訓(xùn)練框架，包括指令增強(qiáng)的監(jiān)督微調(diào)（Instruction-augmented Supervised Fine-tuning）和一致性對(duì)齊訓(xùn)練（Consistency Alignment Training）。該框架在第一階段通過(guò)指令增強(qiáng)幫助模型泛化指令遵循能力，在第二階段通過(guò)自我獎(jiǎng)勵(lì)（s

原文鏈接：今日arXiv最熱NLP大模型論文：對(duì)指令太敏感？山東大學(xué)提出一致性對(duì)齊法，治好大模型敏感體質(zhì)！

聯(lián)系作者

文章來(lái)源：夕小瑤科技說(shuō)
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作：zym5189

閱讀原文