清華微軟開源全新提示詞壓縮工具,長度驟降80%!GitHub怒砍3.1K星
AIGC動態(tài)歡迎閱讀
原標(biāo)題:清華微軟開源全新提示詞壓縮工具,長度驟降80%!GitHub怒砍3.1K星
關(guān)鍵字:研究人員,文本,模型,方法,上下文
文章來源:新智元
內(nèi)容字?jǐn)?shù):6463字
內(nèi)容摘要:
新智元報道編輯:潤 好困
【新智元導(dǎo)讀】最近,清華和微軟的研究人員提出了一種全新的方法,能在保證輸出質(zhì)量不變的前提下,將提示詞壓縮到原始長度的20%!在自然語言處理中,有很多信息其實是重復(fù)的。
如果能將提示詞進(jìn)行有效地壓縮,某種程度上也相當(dāng)于擴(kuò)大了模型支持上下文的長度。
現(xiàn)有的信息熵方法是通過刪除某些詞或短語來減少這種冗余。
然而,作為依據(jù)的信息熵僅僅考慮了文本的單向上下文,進(jìn)而可能會遺漏對于壓縮至關(guān)重要的信息;此外,信息熵的計算方式與壓縮提示詞的真正目的并不完全一致。
為了應(yīng)對這些挑戰(zhàn),來自清華和微軟的研究人員提出了一種全新的數(shù)據(jù)精煉流程——LLMLingua-2,目的是從大型語言模型(LLM)中提取知識,實現(xiàn)在不丟失關(guān)鍵信息的前提下對提示詞進(jìn)行壓縮。
項目在GitHub上已經(jīng)斬獲3.1k星
結(jié)果顯示,LLMLingua-2可以將文本長度大幅縮減至最初的20%,有效減少了處理時間和成本。
此外,與前一版本LLMLingua以及其他類似技術(shù)相比,LLMLingua 2的處理速度提高了3到6倍。
論文地址:https://arxiv.org/abs/2403.12968
在這個過程中,
原文鏈接:清華微軟開源全新提示詞壓縮工具,長度驟降80%!GitHub怒砍3.1K星
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。