AI項目和框架

谷歌推出的最強量子芯片,成功解決30年糾錯難題

Willow 量子芯片是谷歌最新推出的具有105個物理量子比特,在量子糾錯和計算效率上取得了顯著突破。Willow成功解決了量子計算領域近30年的糾錯難題,實現了在...
閱讀原文

微軟和馬里蘭大學共同開源的多模態大語言模型

Florence-VL是創新的多模態大型語言模型(MLLMs),是馬里蘭大學和微軟研究院共同推出的。Florence-VL用生成式視覺基礎模型Florence-2豐富視覺表示,能捕捉圖...
閱讀原文

開源AI虛擬試衣工具,智能適配性別和體型自動調整衣物

OOTDiffusion是開源的AI虛擬試衣工具,能智能適配不同性別和體型,自動調整衣物尺寸和形狀,生成自然貼合的試穿效果。OOTDiffusion支持半身和全身試穿模式,...
閱讀原文

英偉達推出的視覺語言大模型

NVILA是NVIDIA推出的系列視覺語言模型,能平衡效率和準確性。模型用“先擴展后壓縮”策略,有效處理高分辨率圖像和長視頻。NVILA在訓練和微調階段進行系統優化...
閱讀原文

O1-CODER:智能編碼助手O1版提升開發效率與代碼質量

O1-CODER是北京交通大學研究團隊推出的開源項目,旨在復制OpenAI的O1模型,專注于編碼任務。O1-CODER結合強化學習(RL)和蒙特卡洛樹搜索(MCTS)技術,提升...
閱讀原文

南洋理工推出的VR端3D角色扮演AI系統

SOLAMI是創新的VR端3D角色扮演AI系統,是南洋理工大學研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動,基于社交視覺-語言-行為模型,提...
閱讀原文

clone-voice:多語言聲音克隆工具支持16種語言,實現個性化語音合成

Clone-voice是開源的聲音克隆工具,基于深度學習技術分析和模擬人類聲音,實現聲音的高質量克隆。工具支持包括中文、英文、日語、韓語等在內的16種語言,能將...
閱讀原文

AI文本到圖像生成框架,提升單步擴散模型的效率和性能

SNOOPI是創新的文本到圖像生成框架,基于增強單步擴散模型的指導提升模型性能和控制力。SNOOPI包括PG-SB(適當指導 - SwiftBrush)和NASA(負向遠離轉向注意...
閱讀原文

音頻驅動的生成肖像說話視頻框架,保持身份一致性和表現力

MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學和新加坡國立大學推出的音頻驅動肖像動畫框架,用在生成具有身份一致性和表現力的...
閱讀原文

xAI為Grok AI助手推出的新圖像生成模型

Aurora是xAI為AI助手Grok新增的圖像生成模型。Aurora擅長創建逼真的圖像,擅長人物肖像。Aurora能生成包括公共和版權人物在內的圖像(如米老鼠)。Aurora 的...
閱讀原文

One Shot, One Talk:中科大與香港理工攜手打造創新動態圖像生成技術,實現實時創作與智能化設計

One Shot, One Talk是先進的圖像生成技術,能從單張圖片中生成具有個性化細節的全身動態說話頭像,支持逼真的動畫效果,包括自然的表情變化和生動的身體動作...
閱讀原文

智譜 AI 免費開放圖像理解大模型

GLM-4V-Flash是智譜AI推出的專注于圖像理解的AI模型,提供免費的API接口,支持用戶上傳圖片URL或Base64編碼圖片獲取詳細的圖像描述。模型簡化圖像分析流程,...
閱讀原文

Meta AI推出的純文本語言模型

Llama 3.3是Meta AI推出的70B 參數模型,大型多語言預訓練語言模型,性能與40B參數的Llama 3.1相當。模型專為多語言對話優化,支持英語、德語、法語、意大利...
閱讀原文

TensorOpera 開源的小語言模型系列

Fox-1是TensorOpera推出的一系列小型語言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3萬億個網絡抓取的文檔數據上預訓練,在50億...
閱讀原文

PaliGemma 2:DeepMind推出性視覺語言模型,實現跨媒體理解與生成

PaliGemma 2是Google DeepMind基于Gemma 2語言模型家族推出的新一代視覺語言模型(VLM),作為PaliGemma模型的升級版。結合SigLIP-So400m視覺編碼器和不同規...
閱讀原文
18990919293146