知名AI研究者深挖谷歌Gemma:參數(shù)不止70億,設(shè)計(jì)原則很獨(dú)特
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:知名AI研究者深挖谷歌Gemma:參數(shù)不止70億,設(shè)計(jì)原則很獨(dú)特
關(guān)鍵字:報(bào)告,模型,權(quán)重,線性,參數(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4547字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍、杜偉想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎?這篇文章值得一讀。就在幾天前,開源大模型領(lǐng)域迎來了重磅新玩家:谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,同時(shí)保持免費(fèi)可用,模型權(quán)重也一并開源了,且允許商用。谷歌發(fā)布了包含兩種權(quán)重規(guī)模的模型:Gemma 2B 和 Gemma 7B。盡管體量較小,但 Gemma 已經(jīng)「在關(guān)鍵基準(zhǔn)測(cè)試中明顯超越了更大的模型」,包括 Llama-2 7B 和 13B,以及風(fēng)頭正勁的 Mistral 7B。與此同時(shí),關(guān)于 Gemma 的技術(shù)報(bào)告也一并放出。相信大家已經(jīng)對(duì) Gemma 的相關(guān)內(nèi)容進(jìn)行了系統(tǒng)研究,本文知名機(jī)器學(xué)習(xí)與 AI 研究者 Sebastian Raschka 向我們介紹了 Gemma 相比于其他 LLM 的一些獨(dú)特設(shè)計(jì)原則。
Raschka 首先從模型性能展開,他表示看過技術(shù)報(bào)告的小伙伴可能都有一個(gè)疑問,是什么讓 Gemma 表現(xiàn)如此出色?論文中沒有明確說明原因,Sebastian Raschka 認(rèn)為可以從下面兩點(diǎn)得出結(jié)論:
首先是詞匯量大,G
原文鏈接:知名AI研究者深挖谷歌Gemma:參數(shù)不止70億,設(shè)計(jì)原則很獨(dú)特
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)