今日arXiv最熱大模型論文：清華大學(xué)：一個(gè)簡(jiǎn)單縮放讓大模型利用長(zhǎng)上下文能力提升15.2%

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：今日arXiv最熱大模型論文：清華大學(xué)：一個(gè)簡(jiǎn)單縮放讓大模型利用長(zhǎng)上下文能力提升15.2%
關(guān)鍵字：位置,狀態(tài),偏差,模型,注意力
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年
不知道大家發(fā)現(xiàn)沒有，一些大模型的提示技巧總是習(xí)慣將一些重要指令或信息放在提示的開頭或者結(jié)尾。
這是因?yàn)長(zhǎng)LMs在處理上下文的時(shí)候容易出現(xiàn)“l(fā)ost in the middle”的位置偏差，即它們傾向于關(guān)注提示中開頭和結(jié)尾的信息而忽略中間信息。特別隨著上下文越來越長(zhǎng)，這種位置偏差帶來的性能效果愈發(fā)嚴(yán)重。
這個(gè)問題是所有LLMs的通病，連像ChatGPT這樣的強(qiáng)大模型也難以避免這一問題。文獻(xiàn)[1]就指出，GPT-3.5-Turbo模型在試驗(yàn)多文檔問答任務(wù)時(shí)，將答案放置在提示中間與末尾的性能差異高達(dá)22分。
這到底是怎么一回事？位置偏差的根源是什么？是否與LLMs的結(jié)構(gòu)有關(guān)？我們又該如何減輕這一問題？接下來，我們將通過清華大學(xué)的一項(xiàng)研究來探討這些問題。
論文標(biāo)題:Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
論文鏈接：https://arxiv.org/pdf/2406.02536
出現(xiàn)位置偏差的原因位置偏差的微觀表現(xiàn)大模型的一大基本組成結(jié)構(gòu)是T

原文鏈接：今日arXiv最熱大模型論文：清華大學(xué)：一個(gè)簡(jiǎn)單縮放讓大模型利用長(zhǎng)上下文能力提升15.2%

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文