1-2B參數(shù)規(guī)模大模型使用心得及模型匯總

AIGC動(dòng)態(tài)1年前 (2023)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：1-2B參數(shù)規(guī)模大模型使用心得及模型匯總
關(guān)鍵字：模型,數(shù)據(jù),維度,參數(shù),版本
文章來(lái)源：算法邦
內(nèi)容字?jǐn)?shù)：8292字

內(nèi)容摘要：

直播預(yù)告 |12月26日晚7點(diǎn)，「AI新青年講座」232講正式開(kāi)講，清華大學(xué)在讀博士劉世隆主講《LLaVA-Plus：學(xué)習(xí)使用視覺(jué)工具插件的多模態(tài)智能體》，歡迎掃名。大模型時(shí)代，根據(jù)大模型縮放定律，大家通常都在追求模型的參數(shù)規(guī)模更大、訓(xùn)練的數(shù)據(jù)更多，從而使得大模型涌現(xiàn)出更多的智能。但是，模型參數(shù)越大部署壓力就越大。即使有g(shù)ptq、fastllm、vllm等推理加速方法，但如果GPU資源不夠也很難保證高并發(fā)。
那么如何在模型變小的同時(shí)，模型效果不明顯下降，在指定任務(wù)上也可以媲美大模型的效果呢？
Google前幾天發(fā)布的Gemini，在移動(dòng)端采用1.8B參數(shù)模型面向低端手機(jī)，3.25B參數(shù)模型面向高端手機(jī)。
An overview of the Gemini 1.0 model family
而微軟最近也是推出了2.7B的Phi-2模型，評(píng)測(cè)效果絕群。
Averaged performance on grouped benchmarks compared to popular open-source SLMs
Comparison between Phi-2 and Gemini Na

原文鏈接：1-2B參數(shù)規(guī)模大模型使用心得及模型匯總