小模型增強(qiáng)可超GPT-4?北航 && 人大 | 提出大模型ICL增強(qiáng)范式,模型越小收益越高!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:小模型增強(qiáng)可超GPT-4?北航 && 人大 | 提出大模型ICL增強(qiáng)范式,模型越小收益越高!
關(guān)鍵字:模型,樣本,方法,示例,問(wèn)題
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):5500字
內(nèi)容摘要:
引言:上下文學(xué)習(xí)(In-context Learning,ICL)技術(shù)是提高模型在自然語(yǔ)言處理任務(wù)上表現(xiàn)的高效提示技術(shù),因而眾多研究在這個(gè)方向上提出各種方法,但大多數(shù)都專(zhuān)注于示例樣本的選擇,排序,質(zhì)量等,在樣例層面提高模型表現(xiàn)很難再有新的突破。另外,「現(xiàn)有的ICL技術(shù)在弱模型上的表現(xiàn)存在scaling law(縮放法則)的限制」,即弱模型很難超過(guò)強(qiáng)模型的表現(xiàn),然而弱模型由于參數(shù)規(guī)模小易于部署易于微調(diào),因此「如何提高小參數(shù)規(guī)模模型的性能是一個(gè)值得探索地問(wèn)題」。論文地址:
https://arxiv.org/abs/2401.03385
基于上述問(wèn)題,本文研究「提出了一種全新的ICL,名為SLEICL(Strong LLM Enhanced ICL,大模型增強(qiáng)上下文學(xué)習(xí))的方法」,它通過(guò)利用強(qiáng)語(yǔ)言模型從示例樣本中學(xué)習(xí),并提煉出解決特定任務(wù)的技巧,從而增強(qiáng)弱語(yǔ)言模型在這些任務(wù)中的能力。其中,「強(qiáng)模型合成的技巧被稱(chēng)為Grimoire(魔法書(shū))」。
01SLEICL方法介紹作者從兩個(gè)方面總結(jié)了前人的相關(guān)研究:
一方面,關(guān)于為什么ICL有效果的理論研究,作者以及部分前人的工作表明,ICL有效果并不
原文鏈接:小模型增強(qiáng)可超GPT-4?北航 && 人大 | 提出大模型ICL增強(qiáng)范式,模型越小收益越高!
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計(jì)算機(jī)視覺(jué)三大領(lǐng)域的研究與開(kāi)發(fā),提供技術(shù)文章、講座、在線(xiàn)研討會(huì)。