知名AI研究者深挖谷歌Gemma：參數(shù)不止70億，設(shè)計(jì)原則很獨(dú)特

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：知名AI研究者深挖谷歌Gemma：參數(shù)不止70億，設(shè)計(jì)原則很獨(dú)特
關(guān)鍵字：報(bào)告,模型,權(quán)重,線性,參數(shù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4547字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：陳萍、杜偉想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎？這篇文章值得一讀。就在幾天前，開源大模型領(lǐng)域迎來了重磅新玩家：谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini，Gemma 更加輕量，同時(shí)保持免費(fèi)可用，模型權(quán)重也一并開源了，且允許商用。谷歌發(fā)布了包含兩種權(quán)重規(guī)模的模型：Gemma 2B 和 Gemma 7B。盡管體量較小，但 Gemma 已經(jīng)「在關(guān)鍵基準(zhǔn)測(cè)試中明顯超越了更大的模型」，包括 Llama-2 7B 和 13B，以及風(fēng)頭正勁的 Mistral 7B。與此同時(shí)，關(guān)于 Gemma 的技術(shù)報(bào)告也一并放出。相信大家已經(jīng)對(duì) Gemma 的相關(guān)內(nèi)容進(jìn)行了系統(tǒng)研究，本文知名機(jī)器學(xué)習(xí)與 AI 研究者 Sebastian Raschka 向我們介紹了 Gemma 相比于其他 LLM 的一些獨(dú)特設(shè)計(jì)原則。
Raschka 首先從模型性能展開，他表示看過技術(shù)報(bào)告的小伙伴可能都有一個(gè)疑問，是什么讓 Gemma 表現(xiàn)如此出色？論文中沒有明確說明原因，Sebastian Raschka 認(rèn)為可以從下面兩點(diǎn)得出結(jié)論：
首先是詞匯量大，G

原文鏈接：知名AI研究者深挖谷歌Gemma：參數(shù)不止70億，設(shè)計(jì)原則很獨(dú)特