阿里開源110B大模型!超越LLama3!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:阿里開源110B大模型!超越LLama3!
關(guān)鍵字:模型,參數(shù),語言,基礎(chǔ),系列
文章來源:算法邦
內(nèi)容字?jǐn)?shù):1872字
內(nèi)容摘要:
4月26日晚間,阿里正式發(fā)布了110B的千問1.5開源大模型。
110B是中文開源模型的最大尺寸,用了GQA,32k上下文,除了中文能力亮眼,英文表現(xiàn)效果好于LLama3 70B和Mixtral-8x22B。近期開源社區(qū)陸續(xù)出現(xiàn)了千億參數(shù)規(guī)模以上的大模型,這些模型都在各項(xiàng)評(píng)測(cè)中取得杰出的成績。本周,我們開源1100億參數(shù)的Qwen1.5系列首個(gè)千億參數(shù)模型Qwen1.5-110B,該模型在基礎(chǔ)能力評(píng)估中與Meta-Llama3-70B相媲美,在Chat評(píng)估中表現(xiàn)出色,包括MT-Bench和AlpacaEval 2.0。
模型特性 Qwen1.5-110B與其他Qwen1.5模型相似,采用了相同的Transformer解碼器架構(gòu)。它包含了分組查詢注意力(GQA),在模型推理時(shí)更加高效。該模型支持32K tokens的上下文長度,同時(shí)它仍然是多語言的,支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。
模型效果
我們對(duì)基礎(chǔ)語言模型進(jìn)行了一系列評(píng)估,并與最近的SOTA語言模型Meta-Llama3-70B以及Mixtral-8x22B進(jìn)行了比較。上述結(jié)果顯示,新的110B模型在基礎(chǔ)能力方
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。