小模型增強(qiáng)可超GPT-4?北航 && 人大 | 提出大模型ICL增強(qiáng)范式,模型越小收益越高!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:小模型增強(qiáng)可超GPT-4?北航 && 人大 | 提出大模型ICL增強(qiáng)范式,模型越小收益越高!
關(guān)鍵字:模型,樣本,方法,示例,問題
文章來源:算法邦
內(nèi)容字?jǐn)?shù):5500字
內(nèi)容摘要:
引言:上下文學(xué)習(xí)(In-context Learning,ICL)技術(shù)是提高模型在自然語言處理任務(wù)上表現(xiàn)的高效提示技術(shù),因而眾多研究在這個(gè)方向上提出各種方法,但大多數(shù)都專注于示例樣本的選擇,排序,質(zhì)量等,在樣例層面提高模型表現(xiàn)很難再有新的突破。另外,「現(xiàn)有的ICL技術(shù)在弱模型上的表現(xiàn)存在scaling law(縮放法則)的限制」,即弱模型很難超過強(qiáng)模型的表現(xiàn),然而弱模型由于參數(shù)規(guī)模小易于部署易于微調(diào),因此「如何提高小參數(shù)規(guī)模模型的性能是一個(gè)值得探索地問題」。論文地址:
https://arxiv.org/abs/2401.03385
基于上述問題,本文研究「提出了一種全新的ICL,名為SLEICL(Strong LLM Enhanced ICL,大模型增強(qiáng)上下文學(xué)習(xí))的方法」,它通過利用強(qiáng)語言模型從示例樣本中學(xué)習(xí),并提煉出解決特定任務(wù)的技巧,從而增強(qiáng)弱語言模型在這些任務(wù)中的能力。其中,「強(qiáng)模型合成的技巧被稱為Grimoire(魔法書)」。
01SLEICL方法介紹作者從兩個(gè)方面總結(jié)了前人的相關(guān)研究:
一方面,關(guān)于為什么ICL有效果的理論研究,作者以及部分前人的工作表明,ICL有效果并不
原文鏈接:小模型增強(qiáng)可超GPT-4?北航 && 人大 | 提出大模型ICL增強(qiáng)范式,模型越小收益越高!
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計(jì)算機(jī)視覺三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會(huì)。