人大高瓴提出“注意力波”方法,70 億參數(shù) Llama 比肩 GPT-4
AIGC動態(tài)歡迎閱讀
原標(biāo)題:人大高瓴提出“注意力波”方法,70 億參數(shù) Llama 比肩 GPT-4
關(guān)鍵字:位置,上下文,注意力,模型,性能
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):8250字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 智商掉了一地、python最近,隨著大型語言模型(LLM)在人機(jī)交互、多模態(tài)任務(wù)和語言應(yīng)用等領(lǐng)域的廣泛應(yīng)用,研究者們紛紛致力于提升這些模型在處理復(fù)雜上下文時(shí)的性能。
來自人大高瓴的作者以一種新的視角出發(fā),著眼于注意力機(jī)制在上下文中不同位置的關(guān)注程度,就好像木桶里的水在不同木板上停留或流動一樣。作者將模型在每個(gè)角度基準(zhǔn)處對上下文中特定位置的有限認(rèn)知比作木桶上的較短木板,這些木板的長度不同反映了模型對不同位置的關(guān)注程度。形象地說,一個(gè)位置的注意力波可能表現(xiàn)為槽,而另一個(gè)位置可能表現(xiàn)為峰,就像木桶中的較長木板彌補(bǔ)了較短木板的缺陷。
為了解決語言模型在處理復(fù)雜上下文時(shí)的局限性,作者提出了 Attention Buckets 這一概念,旨在通過不同角度的處理方式來彌補(bǔ)注意力機(jī)制的局限性,從而提高對多個(gè)上下文位置的關(guān)注,使得模型能夠更全面、更靈活地理解和處理復(fù)雜的上下文信息,降低 LLM 錯(cuò)過注意力槽內(nèi)關(guān)鍵信息的風(fēng)險(xiǎn)。在實(shí)驗(yàn)中,甚至當(dāng) Attention Buckets 與 DFSDT-Retriever 設(shè)置配對時(shí),不僅與 GPT-4 的性能水平相匹配,而且在許多情況
原文鏈接:人大高瓴提出“注意力波”方法,70 億參數(shù) Llama 比肩 GPT-4
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。