国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

顛覆視覺AI：阿里Qwen、騰訊混元與谷歌重磅模型齊亮相！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

顛覆視覺AI：阿里Qwen、騰訊混元與谷歌重磅模型齊亮相！

原標(biāo)題：視覺 LLM 開源的瘋狂月！阿里 Qwen、騰訊混元、谷歌等連續(xù)開源重磅模型
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：11205字

2024年12月視覺模型的開源盛宴

2024年12月，視覺模型領(lǐng)域迎來了一場(chǎng)重磅開源盛宴，多家知名企業(yè)接布了閉源和開源的視覺語言模型。這些模型不僅展示了強(qiáng)大的性能，還為多模態(tài)AI的應(yīng)用奠定了基礎(chǔ)。

1. 閉源模型的快速發(fā)布

本月閉源視覺模型的發(fā)布頻繁，如《智譜 GLM-4V-Flash API》、Gemini 2.0等，這些模型在功能和應(yīng)用場(chǎng)景上都表現(xiàn)出色，推動(dòng)了行業(yè)的發(fā)展。

2. 開源模型的集中發(fā)布

開源視覺語言模型也在12月密集發(fā)布，主要包括來自阿里、騰訊、谷歌和Meta等公司的重磅產(chǎn)品。模型如PaliGemma 2、InternVL 2.5和HunyuanVideo等，展現(xiàn)了強(qiáng)大的圖像識(shí)別、視頻生成和多模態(tài)處理能力。

3. 主要開源模型介紹

以下是幾款重要的開源模型：

3.1 PaliGemma 2

PaliGemma 2是新一代視覺語言模型，支持多種語言，能夠處理圖像和視頻描述、問題回答等任務(wù)。其在30多個(gè)任務(wù)上表現(xiàn)優(yōu)異，特別是在長文本生成和醫(yī)學(xué)圖像理解方面。

3.2 InternVL 2.5

InternVL 2.5是一個(gè)先進(jìn)的多模態(tài)大型語言模型，參數(shù)覆蓋從1B到78B，首次在MMMU基準(zhǔn)測(cè)試中超過70%的準(zhǔn)確率，具備強(qiáng)大的多任務(wù)處理能力。

3.3 Qwen 2-VL

Qwen 2-VL能夠理解超過20分鐘的視頻，支持多語言，并具備復(fù)雜的推理和決策能力，適用于手機(jī)、機(jī)器人等設(shè)備。

3.4 HunyuanVideo

HunyuanVideo是騰訊推出的文本生成視頻模型，具有130億參數(shù)，能夠生成高質(zhì)量的視頻，未來可能推出更高分辨率版本。

4. 模型的創(chuàng)新與應(yīng)用前景

這些模型的發(fā)布不僅展示了開源技術(shù)的進(jìn)步，也為多模態(tài)AI應(yīng)用的全面爆發(fā)奠定了基礎(chǔ)。隨著技術(shù)的不斷演進(jìn)，未來的視覺模型將進(jìn)一步提升智能應(yīng)用的質(zhì)量和范圍。

總之，2024年12月的視覺模型開源盛宴標(biāo)志著多模態(tài)AI發(fā)展的重要里程碑，期待未來更多創(chuàng)新成果的涌現(xiàn)。

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：
作者簡(jiǎn)介：解碼AI世界，硬核也可愛！聚集35萬AI發(fā)燒友、開發(fā)者和從業(yè)者，廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文