AI項目和框架
英偉達推出的視覺語言大模型
NVILA是NVIDIA推出的系列視覺語言模型,能平衡效率和準確性。模型用“先擴展后壓縮”策略,有效處理高分辨率圖像和長視頻。NVILA在訓(xùn)練和微調(diào)階段進行系統(tǒng)優(yōu)化...
O1-CODER:智能編碼助手O1版提升開發(fā)效率與代碼質(zhì)量
O1-CODER是北京交通大學(xué)研究團隊推出的開源項目,旨在復(fù)制OpenAI的O1模型,專注于編碼任務(wù)。O1-CODER結(jié)合強化學(xué)習(xí)(RL)和蒙特卡洛樹搜索(MCTS)技術(shù),提升...
南洋理工推出的VR端3D角色扮演AI系統(tǒng)
SOLAMI是創(chuàng)新的VR端3D角色扮演AI系統(tǒng),是南洋理工大學(xué)研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動,基于社交視覺-語言-行為模型,提...
clone-voice:多語言聲音克隆工具支持16種語言,實現(xiàn)個性化語音合成
Clone-voice是開源的聲音克隆工具,基于深度學(xué)習(xí)技術(shù)分析和模擬人類聲音,實現(xiàn)聲音的高質(zhì)量克隆。工具支持包括中文、英文、日語、韓語等在內(nèi)的16種語言,能將...
AI文本到圖像生成框架,提升單步擴散模型的效率和性能
SNOOPI是創(chuàng)新的文本到圖像生成框架,基于增強單步擴散模型的指導(dǎo)提升模型性能和控制力。SNOOPI包括PG-SB(適當(dāng)指導(dǎo) - SwiftBrush)和NASA(負向遠離轉(zhuǎn)向注意...
音頻驅(qū)動的生成肖像說話視頻框架,保持身份一致性和表現(xiàn)力
MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學(xué)和新加坡國立大學(xué)推出的音頻驅(qū)動肖像動畫框架,用在生成具有身份一致性和表現(xiàn)力的...
xAI為Grok AI助手推出的新圖像生成模型
Aurora是xAI為AI助手Grok新增的圖像生成模型。Aurora擅長創(chuàng)建逼真的圖像,擅長人物肖像。Aurora能生成包括公共和版權(quán)人物在內(nèi)的圖像(如米老鼠)。Aurora 的...
One Shot, One Talk:中科大與香港理工攜手打造創(chuàng)新動態(tài)圖像生成技術(shù),實現(xiàn)實時創(chuàng)作與智能化設(shè)計
One Shot, One Talk是先進的圖像生成技術(shù),能從單張圖片中生成具有個性化細節(jié)的全身動態(tài)說話頭像,支持逼真的動畫效果,包括自然的表情變化和生動的身體動作...
智譜 AI 免費開放圖像理解大模型
GLM-4V-Flash是智譜AI推出的專注于圖像理解的AI模型,提供免費的API接口,支持用戶上傳圖片URL或Base64編碼圖片獲取詳細的圖像描述。模型簡化圖像分析流程,...
Meta AI推出的純文本語言模型
Llama 3.3是Meta AI推出的70B 參數(shù)模型,大型多語言預(yù)訓(xùn)練語言模型,性能與40B參數(shù)的Llama 3.1相當(dāng)。模型專為多語言對話優(yōu)化,支持英語、德語、法語、意大利...
TensorOpera 開源的小語言模型系列
Fox-1是TensorOpera推出的一系列小型語言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3萬億個網(wǎng)絡(luò)抓取的文檔數(shù)據(jù)上預(yù)訓(xùn)練,在50億...
PaliGemma 2:DeepMind推出性視覺語言模型,實現(xiàn)跨媒體理解與生成
PaliGemma 2是Google DeepMind基于Gemma 2語言模型家族推出的新一代視覺語言模型(VLM),作為PaliGemma模型的升級版。結(jié)合SigLIP-So400m視覺編碼器和不同規(guī)...
哈工大聯(lián)合鵬城實驗室推出的智能體框架
Optimus-1是哈爾濱工業(yè)大學(xué)(深圳)和鵬城實驗室推出的智能體框架,能解決在開放世界環(huán)境中完成長期任務(wù)的挑戰(zhàn)。框架結(jié)合結(jié)構(gòu)化知識和多模態(tài)經(jīng)驗,讓智能體更...
ClearerVoice-Studio:智能語音處理框架助力多場景應(yīng)用的高效解決方案
ClearerVoice-Studio 是阿里巴巴達摩院通義實驗室開源的語音處理框架,集成語音增強、分離和音視頻說話人提取等功能。框架基于復(fù)數(shù)域深度學(xué)習(xí)算法,有效消除...
字節(jié)豆包聯(lián)合M-A-P社區(qū)開源的全新代碼評估基準
FullStack Bench是字節(jié)跳動豆包大模型團隊與M-A-P社區(qū)聯(lián)合推出的全新代碼評估基準,專注于全棧編程和多語言編程能力評估。FullStack Bench覆蓋超過11種真實編...
粵公網(wǎng)安備 44011502001135號