Qwen2是一款由阿里云通義千問團(tuán)隊(duì)開源的前沿大語言模型,涵蓋了從0.5B到72B的多個(gè)規(guī)模。該模型在中文和英文的基礎(chǔ)上,融合了27種語言的高質(zhì)量數(shù)據(jù),顯著提升了自然語言理解、代碼生成、數(shù)學(xué)解題以及多語言處理的能力。Qwen2支持最長達(dá)到128K tokens的上下文長度,強(qiáng)化了模型的泛化能力和應(yīng)用潛力,在多個(gè)評(píng)測標(biāo)準(zhǔn)中表現(xiàn)優(yōu)越,領(lǐng)先于Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平臺(tái)開源。
Qwen2是什么
Qwen2是阿里云通義千問團(tuán)隊(duì)推出的一款新一代開源大語言模型。該系列模型的參數(shù)規(guī)模從0.5B到72B不等,并且在中文和英文之外,增加了27種語言的優(yōu)質(zhì)數(shù)據(jù),從而大幅提升了模型在自然語言理解、代碼撰寫、數(shù)學(xué)問題解決以及多語言處理方面的表現(xiàn)。Qwen2能夠處理最長128K tokens的上下文,優(yōu)化了模型的泛化性和應(yīng)用潛力。該系列在多個(gè)評(píng)測基準(zhǔn)上表現(xiàn)出色,超越了Meta的Llama-3-70B模型,目前已在Hugging Face和ModelScope平臺(tái)上開放下載。
Qwen2的模型信息
模型名稱 | 參數(shù)量 (B) | 非Embedding參數(shù)量 (B) | 是否使用GQA | 是否Tie Embedding | 上下文長度 (tokens) |
---|---|---|---|---|---|
Qwen2-0.5B | 0.49 | 0.35 | 是 | 是 | 32K |
Qwen2-1.5B | 1.54 | 1.31 | 是 | 是 | 32K |
Qwen2-7B | 7.07 | 5.98 | 是 | 否 | 128K |
Qwen2-57B-A14B | 57.41 | 56.32 | 是 | 否 | 64K |
Qwen2-72B-Instruct | 72.71 | 70.21 | 是 | 否 | 128K |
- 參數(shù)量:指模型的總參數(shù)數(shù)量,以B(十億)為單位。
- 非Embedding參數(shù)量:不包括詞嵌入部分的參數(shù)數(shù)量。
- 是否使用GQA:標(biāo)識(shí)模型是否采用GQA(Generalized Query Answering)技術(shù)。
- 是否Tie Embedding:指出模型是否在輸入和輸出層共享參數(shù)。
- 上下文長度:模型能夠處理的最大上下文長度,以tokens為單位。
Qwen2的官網(wǎng)入口
- 官方博客介紹:https://qwenlm.github.io/zh/blog/qwen2/
- GitHub地址:https://github.com/QwenLM/Qwen2
- Hugging Face地址:https://huggingface.co/Qwen
- ModelScope地址:https://modelscope.cn/organization/qwen
- Hugging Face在線Demo:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct
Qwen2的模型評(píng)測
- Qwen2系列在多個(gè)評(píng)測基準(zhǔn)上表現(xiàn)卓越,尤其是Qwen2-72B模型,實(shí)現(xiàn)了顯著的性能提升。
- 在自然語言理解、知識(shí)處理、代碼生成、數(shù)學(xué)能力和多語言支持等方面,Qwen2-72B明顯超越了現(xiàn)有的領(lǐng)先模型,如Llama-3-70B和Qwen1.5的110B模型。
- 在16個(gè)評(píng)測中,Qwen2-72B-Instruct展現(xiàn)了基礎(chǔ)能力與人類價(jià)值觀對(duì)齊的良好平衡,超越了Qwen1.5的72B模型,并與Llama-3-70B-Instruct相抗衡。
Qwen2的模型亮點(diǎn)
- 代碼與數(shù)學(xué):Qwen2在代碼生成和數(shù)學(xué)能力方面的提升顯著,成功借鑒了CodeQwen1.5的經(jīng)驗(yàn),在多種編程語言上取得了優(yōu)秀效果。通過大規(guī)模高質(zhì)量的數(shù)據(jù)支持,數(shù)學(xué)能力得到了質(zhì)的飛躍。
- 長文本處理:Qwen2系列的Instruct模型在32K上下文長度上進(jìn)行訓(xùn)練,并通過YARN等技術(shù)擴(kuò)展至更長上下文,Qwen2-72B-Instruct能夠有效處理128K上下文長度的信息提取任務(wù)。
- 安全性:在多語言不安全查詢的評(píng)測中,Qwen2-72B-Instruct的安全性與GPT-4相當(dāng),且明顯優(yōu)于Mistral-8x22B模型,顯著降低了生成有害內(nèi)容的風(fēng)險(xiǎn)。
- 多語言能力:Qwen2在多語言能力的評(píng)測中表現(xiàn)突出,增強(qiáng)了對(duì)27種語言的處理能力,并優(yōu)化了語言轉(zhuǎn)換的效果,大幅降低了模型在語言轉(zhuǎn)換時(shí)的錯(cuò)誤率。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...