AI項目和框架

英偉達推出的視覺語言大模型

NVILA是NVIDIA推出的系列視覺語言模型，能平衡效率和準確性。模型用“先擴展后壓縮”策略，有效處理高分辨率圖像和長視頻。NVILA在訓(xùn)練和微調(diào)階段進行系統(tǒng)優(yōu)化...

12個月前

O1-CODER：智能編碼助手O1版提升開發(fā)效率與代碼質(zhì)量

O1-CODER是北京交通大學(xué)研究團隊推出的開源項目，旨在復(fù)制OpenAI的O1模型，專注于編碼任務(wù)。O1-CODER結(jié)合強化學(xué)習(xí)（RL）和蒙特卡洛樹搜索（MCTS）技術(shù)，提升...

閱讀原文

AI工具

12個月前

南洋理工推出的VR端3D角色扮演AI系統(tǒng)

SOLAMI是創(chuàng)新的VR端3D角色扮演AI系統(tǒng)，是南洋理工大學(xué)研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動，基于社交視覺-語言-行為模型，提...

閱讀原文

AI工具

12個月前

clone-voice：多語言聲音克隆工具支持16種語言，實現(xiàn)個性化語音合成

Clone-voice是開源的聲音克隆工具，基于深度學(xué)習(xí)技術(shù)分析和模擬人類聲音，實現(xiàn)聲音的高質(zhì)量克隆。工具支持包括中文、英文、日語、韓語等在內(nèi)的16種語言，能將...

閱讀原文

AI工具

12個月前

AI文本到圖像生成框架，提升單步擴散模型的效率和性能

SNOOPI是創(chuàng)新的文本到圖像生成框架，基于增強單步擴散模型的指導(dǎo)提升模型性能和控制力。SNOOPI包括PG-SB（適當(dāng)指導(dǎo) - SwiftBrush）和NASA（負向遠離轉(zhuǎn)向注意...

閱讀原文

AI工具

12個月前

音頻驅(qū)動的生成肖像說話視頻框架，保持身份一致性和表現(xiàn)力

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大學(xué)和新加坡國立大學(xué)推出的音頻驅(qū)動肖像動畫框架，用在生成具有身份一致性和表現(xiàn)力的...

閱讀原文

AI工具

12個月前

xAI為Grok AI助手推出的新圖像生成模型

Aurora是xAI為AI助手Grok新增的圖像生成模型。Aurora擅長創(chuàng)建逼真的圖像，擅長人物肖像。Aurora能生成包括公共和版權(quán)人物在內(nèi)的圖像（如米老鼠）。Aurora 的...

閱讀原文

AI工具

12個月前

One Shot, One Talk：中科大與香港理工攜手打造創(chuàng)新動態(tài)圖像生成技術(shù)，實現(xiàn)實時創(chuàng)作與智能化設(shè)計

One Shot, One Talk是先進的圖像生成技術(shù)，能從單張圖片中生成具有個性化細節(jié)的全身動態(tài)說話頭像，支持逼真的動畫效果，包括自然的表情變化和生動的身體動作...

閱讀原文

AI工具

12個月前

智譜 AI 免費開放圖像理解大模型

GLM-4V-Flash是智譜AI推出的專注于圖像理解的AI模型，提供免費的API接口，支持用戶上傳圖片URL或Base64編碼圖片獲取詳細的圖像描述。模型簡化圖像分析流程，...

閱讀原文

AI工具

12個月前

Meta AI推出的純文本語言模型

Llama 3.3是Meta AI推出的70B 參數(shù)模型，大型多語言預(yù)訓(xùn)練語言模型，性能與40B參數(shù)的Llama 3.1相當(dāng)。模型專為多語言對話優(yōu)化，支持英語、德語、法語、意大利...

閱讀原文

AI工具

12個月前

TensorOpera 開源的小語言模型系列

Fox-1是TensorOpera推出的一系列小型語言模型（SLMs），包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3萬億個網(wǎng)絡(luò)抓取的文檔數(shù)據(jù)上預(yù)訓(xùn)練，在50億...

閱讀原文

AI工具

12個月前

PaliGemma 2：DeepMind推出性視覺語言模型，實現(xiàn)跨媒體理解與生成

PaliGemma 2是Google DeepMind基于Gemma 2語言模型家族推出的新一代視覺語言模型（VLM），作為PaliGemma模型的升級版。結(jié)合SigLIP-So400m視覺編碼器和不同規(guī)...

閱讀原文

AI工具

12個月前

哈工大聯(lián)合鵬城實驗室推出的智能體框架

Optimus-1是哈爾濱工業(yè)大學(xué)（深圳）和鵬城實驗室推出的智能體框架，能解決在開放世界環(huán)境中完成長期任務(wù)的挑戰(zhàn)。框架結(jié)合結(jié)構(gòu)化知識和多模態(tài)經(jīng)驗，讓智能體更...

閱讀原文

AI工具

12個月前

ClearerVoice-Studio：智能語音處理框架助力多場景應(yīng)用的高效解決方案

ClearerVoice-Studio 是阿里巴巴達摩院通義實驗室開源的語音處理框架，集成語音增強、分離和音視頻說話人提取等功能。框架基于復(fù)數(shù)域深度學(xué)習(xí)算法，有效消除...

閱讀原文

AI工具

12個月前

字節(jié)豆包聯(lián)合M-A-P社區(qū)開源的全新代碼評估基準

FullStack Bench是字節(jié)跳動豆包大模型團隊與M-A-P社區(qū)聯(lián)合推出的全新代碼評估基準，專注于全棧編程和多語言編程能力評估。FullStack Bench覆蓋超過11種真實編...

閱讀原文

AI工具

12個月前

1…99 100101102 103…156