小模型增強(qiáng)可超GPT-4？北航 && 人大 | 提出大模型ICL增強(qiáng)范式，模型越小收益越高！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：小模型增強(qiáng)可超GPT-4？北航 && 人大 | 提出大模型ICL增強(qiáng)范式，模型越小收益越高！
關(guān)鍵字：模型,樣本,方法,示例,問題
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：5500字

內(nèi)容摘要：

引言：上下文學(xué)習(xí)（In-context Learning，ICL）技術(shù)是提高模型在自然語言處理任務(wù)上表現(xiàn)的高效提示技術(shù)，因而眾多研究在這個(gè)方向上提出各種方法，但大多數(shù)都專注于示例樣本的選擇，排序，質(zhì)量等，在樣例層面提高模型表現(xiàn)很難再有新的突破。另外，「現(xiàn)有的ICL技術(shù)在弱模型上的表現(xiàn)存在scaling law（縮放法則）的限制」，即弱模型很難超過強(qiáng)模型的表現(xiàn)，然而弱模型由于參數(shù)規(guī)模小易于部署易于微調(diào)，因此「如何提高小參數(shù)規(guī)模模型的性能是一個(gè)值得探索地問題」。論文地址：
https://arxiv.org/abs/2401.03385
基于上述問題，本文研究「提出了一種全新的ICL，名為SLEICL（Strong LLM Enhanced ICL，大模型增強(qiáng)上下文學(xué)習(xí)）的方法」，它通過利用強(qiáng)語言模型從示例樣本中學(xué)習(xí)，并提煉出解決特定任務(wù)的技巧，從而增強(qiáng)弱語言模型在這些任務(wù)中的能力。其中，「強(qiáng)模型合成的技巧被稱為Grimoire（魔法書）」。
01SLEICL方法介紹作者從兩個(gè)方面總結(jié)了前人的相關(guān)研究：
一方面，關(guān)于為什么ICL有效果的理論研究，作者以及部分前人的工作表明，ICL有效果并不

原文鏈接：小模型增強(qiáng)可超GPT-4？北航 && 人大 | 提出大模型ICL增強(qiáng)范式，模型越小收益越高！