拯救被「掰彎」的GPT-4!西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」
AIGC動態(tài)歡迎閱讀
原標題:拯救被「掰彎」的GPT-4!西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」
關(guān)鍵字:上下文,信息,長上,模型,數(shù)據(jù)
文章來源:新智元
內(nèi)容字數(shù):6628字
內(nèi)容摘要:
新智元報道編輯:alan
【新智元導(dǎo)讀】近日,西交微軟北大聯(lián)合提出信息密集型訓(xùn)練,使用純數(shù)據(jù)驅(qū)動的方式,矯正LLM訓(xùn)練過程產(chǎn)生的偏見,在一定程度上治療了大語言模型丟失中間信息的問題。辛辛苦苦給大語言模型輸入了一大堆提示,它卻只記住了開頭和結(jié)尾?
這個現(xiàn)象叫做LLM的中間迷失(Lost in the Middle),是大模型當前仍面臨的最大挑戰(zhàn)之一。
畢竟,LLM現(xiàn)在的上下文長度已經(jīng)沖到了百萬級別,而難以處理中間的信息,會使得LLM在評估大量數(shù)據(jù)時不再可靠。
Midjourney對于Lost in the Middle的理解
其實,我們?nèi)祟愐灿蓄愃啤钢虚g迷失」的毛病,心理學(xué)上叫「Primacy/recency effect」,感興趣的讀者可以參見:
https://www.sciencedirect.com/topics/psychology/recency-effect
「我怕零點的鐘聲太響……后面忘了」
不過就在不久前,來自西交、微軟和北大的研究人員,開發(fā)了一種純粹的數(shù)據(jù)驅(qū)動解決方案,來治療LLM丟失中間信息的癥狀:
論文地址:https://arxiv.org/pdf
原文鏈接:拯救被「掰彎」的GPT-4!西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。