Gemma 3n – 谷歌推出的端側(cè)多模態(tài)AI模型

Gemma 3n 是谷歌 I/O 開(kāi)發(fā)者大會(huì)發(fā)布的一款先進(jìn)的端側(cè)多模態(tài) AI 模型。它基于 Gemini Nano 架構(gòu),采用了創(chuàng)新的逐層嵌入技術(shù),將內(nèi)存占用壓縮至相當(dāng)于 2-4B 參數(shù)模型的水平。模型參數(shù)量分別為 5B 和 8B,但內(nèi)存占用卻僅與 2B 和 4B 模型相當(dāng)。Gemma 3n 不僅支持文本、圖像、短視頻和音頻輸入,還能生成結(jié)構(gòu)化的文本輸出。其音頻處理功能特別強(qiáng)大,能夠?qū)崟r(shí)轉(zhuǎn)錄語(yǔ)音、識(shí)別背景音或進(jìn)行音頻情感分析,用戶可以通過(guò) Google AI Studio 在瀏覽器中輕松使用這一功能。
Gemma 3n是什么
Gemma 3n 是谷歌 I/O 開(kāi)發(fā)者大會(huì)推出的一款多模態(tài) AI 模型,專為移動(dòng)端優(yōu)化,基于 Gemini Nano 架構(gòu)。通過(guò)逐層嵌入技術(shù),Gemma 3n 的內(nèi)存占用大幅降低,模型參數(shù)量為 5B 和 8B,但內(nèi)存使用僅相當(dāng)于 2B 和 4B 模型。這款模型能夠處理文本、圖像、短視頻和音頻輸入,并生成結(jié)構(gòu)化文本輸出。新增加的音頻處理能力使其能夠?qū)崟r(shí)轉(zhuǎn)錄語(yǔ)音、識(shí)別背景音及分析音頻情感,用戶可通過(guò) Google AI Studio 在瀏覽器中直接使用。
Gemma 3n的主要功能
- 多模態(tài)輸入:支持用戶通過(guò)文本、圖像、短視頻和音頻進(jìn)行交互,生成結(jié)構(gòu)化文本。例如,上傳一張照片并詢問(wèn)“這是什么植物?”或使用語(yǔ)音指令分析短視頻內(nèi)容。
- 音頻理解:具備實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄、背景音識(shí)別與音頻情感分析能力,適合用于語(yǔ)音助手和無(wú)障礙應(yīng)用。
- 設(shè)備端運(yùn)行:無(wú)需依賴云端,所有推理在本地完成,響應(yīng)時(shí)間低至 50 毫秒,確保低延遲和數(shù)據(jù)隱私。
- 高效微調(diào):支持在 Google Colab 上快速微調(diào),開(kāi)發(fā)者可以通過(guò)短時(shí)間訓(xùn)練定制模型,以適應(yīng)特定的任務(wù)需求。
- 長(zhǎng)上下文支持:支持最長(zhǎng) 128K tokens 的上下文長(zhǎng)度,滿足更多復(fù)雜應(yīng)用場(chǎng)景。
Gemma 3n的技術(shù)原理
- 基于 Gemini Nano 架構(gòu):Gemma 3n 采用輕量化設(shè)計(jì),專為移動(dòng)設(shè)備優(yōu)化,通過(guò)知識(shí)蒸餾和量化感知訓(xùn)練(QAT),在保持高效能的同時(shí)顯著降低資源需求。
- 逐層嵌入技術(shù):運(yùn)用逐層嵌入(Per-Layer Embeddings,PLE)技術(shù),顯著減少模型內(nèi)存占用,原始參數(shù)量為 5B 和 8B,但內(nèi)存需求僅相當(dāng)于 2B 和 4B 模型,僅需 2GB 或 3GB 的動(dòng)態(tài)內(nèi)存即可運(yùn)行。
- 多模態(tài)融合:結(jié)合 Gemini 2.0 的分詞器和增強(qiáng)的數(shù)據(jù)混合,支持超過(guò) 140 種語(yǔ)言的文本與視覺(jué)處理,滿足全球用戶的需求。
- 局部/全局層交錯(cuò)設(shè)計(jì):采用 5:1 的局部/全局層交錯(cuò)機(jī)制,以局部層作為計(jì)算的起始層,減少長(zhǎng)上下文時(shí)的 KV 緩存問(wèn)題。
Gemma 3n的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://deepmind.google/models/gemma/gemma-3n/
Gemma 3n的應(yīng)用場(chǎng)景
- 語(yǔ)音轉(zhuǎn)錄與情感分析:實(shí)時(shí)轉(zhuǎn)錄語(yǔ)音、識(shí)別背景音和分析音頻情感,尤其適合語(yǔ)音助手和無(wú)障礙技術(shù)應(yīng)用。
- 內(nèi)容生成:支持在移動(dòng)設(shè)備上快速生成圖像描述、視頻摘要或語(yǔ)音轉(zhuǎn)錄,便利內(nèi)容創(chuàng)作者進(jìn)行短視頻或社交媒體素材的編輯。
- 學(xué)術(shù)任務(wù)定制:開(kāi)發(fā)者可利用 Gemma 3n 的微調(diào)功能,在 Google Colab 上為學(xué)術(shù)任務(wù)定制模型,例如分析實(shí)驗(yàn)圖像或轉(zhuǎn)錄講座音頻。
- 低資源設(shè)備:專為低資源設(shè)備設(shè)計(jì),運(yùn)行僅需 2GB RAM,可在手機(jī)、平板和筆記本電腦上流暢使用。
常見(jiàn)問(wèn)題
- Gemma 3n的主要優(yōu)勢(shì)是什么?:Gemma 3n 的主要優(yōu)勢(shì)在于其多模態(tài)輸入能力和高效的內(nèi)存使用,使其能夠在移動(dòng)設(shè)備上快速響應(yīng)用戶的多樣化需求。
- 如何使用Gemma 3n進(jìn)行微調(diào)?:開(kāi)發(fā)者可在 Google Colab 上通過(guò)幾小時(shí)的訓(xùn)練輕松對(duì) Gemma 3n 進(jìn)行微調(diào),適應(yīng)特定的應(yīng)用場(chǎng)景。
- Gemma 3n支持哪些語(yǔ)言?:Gemma 3n 支持超過(guò) 140 種語(yǔ)言,滿足全球用戶的需求。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)