顛覆視覺AI:阿里Qwen、騰訊混元與谷歌重磅模型齊亮相!

原標(biāo)題:視覺 LLM 開源的瘋狂月!阿里 Qwen、騰訊混元、谷歌等連續(xù)開源重磅模型
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):11205字
2024年12月視覺模型的開源盛宴
2024年12月,視覺模型領(lǐng)域迎來了一場(chǎng)重磅開源盛宴,多家知名企業(yè)接布了閉源和開源的視覺語言模型。這些模型不僅展示了強(qiáng)大的性能,還為多模態(tài)AI的應(yīng)用奠定了基礎(chǔ)。
1. 閉源模型的快速發(fā)布
本月閉源視覺模型的發(fā)布頻繁,如《智譜 GLM-4V-Flash API》、Gemini 2.0等,這些模型在功能和應(yīng)用場(chǎng)景上都表現(xiàn)出色,推動(dòng)了行業(yè)的發(fā)展。
2. 開源模型的集中發(fā)布
開源視覺語言模型也在12月密集發(fā)布,主要包括來自阿里、騰訊、谷歌和Meta等公司的重磅產(chǎn)品。模型如PaliGemma 2、InternVL 2.5和HunyuanVideo等,展現(xiàn)了強(qiáng)大的圖像識(shí)別、視頻生成和多模態(tài)處理能力。
3. 主要開源模型介紹
以下是幾款重要的開源模型:
3.1 PaliGemma 2
PaliGemma 2是新一代視覺語言模型,支持多種語言,能夠處理圖像和視頻描述、問題回答等任務(wù)。其在30多個(gè)任務(wù)上表現(xiàn)優(yōu)異,特別是在長文本生成和醫(yī)學(xué)圖像理解方面。
3.2 InternVL 2.5
InternVL 2.5是一個(gè)先進(jìn)的多模態(tài)大型語言模型,參數(shù)覆蓋從1B到78B,首次在MMMU基準(zhǔn)測(cè)試中超過70%的準(zhǔn)確率,具備強(qiáng)大的多任務(wù)處理能力。
3.3 Qwen 2-VL
Qwen 2-VL能夠理解超過20分鐘的視頻,支持多語言,并具備復(fù)雜的推理和決策能力,適用于手機(jī)、機(jī)器人等設(shè)備。
3.4 HunyuanVideo
HunyuanVideo是騰訊推出的文本生成視頻模型,具有130億參數(shù),能夠生成高質(zhì)量的視頻,未來可能推出更高分辨率版本。
4. 模型的創(chuàng)新與應(yīng)用前景
這些模型的發(fā)布不僅展示了開源技術(shù)的進(jìn)步,也為多模態(tài)AI應(yīng)用的全面爆發(fā)奠定了基礎(chǔ)。隨著技術(shù)的不斷演進(jìn),未來的視覺模型將進(jìn)一步提升智能應(yīng)用的質(zhì)量和范圍。
總之,2024年12月的視覺模型開源盛宴標(biāo)志著多模態(tài)AI發(fā)展的重要里程碑,期待未來更多創(chuàng)新成果的涌現(xiàn)。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介:解碼AI世界,硬核也可愛!聚集35萬AI發(fā)燒友、開發(fā)者和從業(yè)者,廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)