AI項(xiàng)目和框架

哈工大聯(lián)合鵬城實(shí)驗(yàn)室推出的智能體框架

Optimus-1是哈爾濱工業(yè)大學(xué)(深圳)和鵬城實(shí)驗(yàn)室推出的智能體框架,能解決在開(kāi)放世界環(huán)境中完成長(zhǎng)期任務(wù)的挑戰(zhàn)。框架結(jié)合結(jié)構(gòu)化知識(shí)和多模態(tài)經(jīng)驗(yàn),讓智能體更...
閱讀原文

ClearerVoice-Studio:智能語(yǔ)音處理框架助力多場(chǎng)景應(yīng)用的高效解決方案

ClearerVoice-Studio 是阿里巴巴達(dá)摩院通義實(shí)驗(yàn)室開(kāi)源的語(yǔ)音處理框架,集成語(yǔ)音增強(qiáng)、分離和音視頻說(shuō)話人提取等功能。框架基于復(fù)數(shù)域深度學(xué)習(xí)算法,有效消除...
閱讀原文

字節(jié)豆包聯(lián)合M-A-P社區(qū)開(kāi)源的全新代碼評(píng)估基準(zhǔn)

FullStack Bench是字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)與M-A-P社區(qū)聯(lián)合推出的全新代碼評(píng)估基準(zhǔn),專(zhuān)注于全棧編程和多語(yǔ)言編程能力評(píng)估。FullStack Bench覆蓋超過(guò)11種真實(shí)編...
閱讀原文

Motion Prompting:谷歌攜手密歇根與布朗大學(xué)推出創(chuàng)新軌跡控制視頻生成模型

Motion Prompting是 Google DeepMind、密歇根大學(xué)和布朗大學(xué)聯(lián)合推出的視頻生成技術(shù),基于運(yùn)動(dòng)軌跡(motion trajectories)控制和引導(dǎo)視頻內(nèi)容的生成。Motion...
閱讀原文

Fish Audio 推出的語(yǔ)音合成模型,支持13種語(yǔ)言

Fish Speech 1.5 是Fish Audio 推出的文本到語(yǔ)音(TTS)模型,基于深度學(xué)習(xí)技術(shù)如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英語(yǔ)、日語(yǔ)、韓語(yǔ)、...
閱讀原文

Perplexideez:智能信息追溯助手提升搜索效率與準(zhǔn)確性

Perplexideez是本地AI助手,支持用戶(hù)在網(wǎng)絡(luò)和自托管應(yīng)用中快速搜索信息。Perplexideez項(xiàng)目以Postgres數(shù)據(jù)庫(kù)為基礎(chǔ),支持Ollama或OpenAI兼容的端點(diǎn),用SearXNG...
閱讀原文

Micro LLAMA:探索LLAMA 3模型的核心原理與應(yīng)用特點(diǎn)

Micro LLAMA是精簡(jiǎn)的教學(xué)版LLAMA 3模型實(shí)現(xiàn),能幫助學(xué)習(xí)者理解大型語(yǔ)言模型架構(gòu)。整個(gè)項(xiàng)目?jī)H約180行代碼,便于理解和學(xué)習(xí)。Micro LLAMA用的是LLAMA 3中最小的...
閱讀原文

GenCast:DeepMind推出的性AI氣象預(yù)測(cè)模型提氣預(yù)報(bào)精準(zhǔn)度與效率

GenCast是DeepMind推出的革命性AI氣象預(yù)測(cè)模型,基于擴(kuò)散模型技術(shù),提供長(zhǎng)達(dá)15天的全球天氣預(yù)報(bào)。GenCast在97.2%的預(yù)測(cè)任務(wù)中超越全球頂尖的中期天氣預(yù)報(bào)系統(tǒng)...
閱讀原文

Luma Photon:創(chuàng)新圖像生成模型助力無(wú)限創(chuàng)意與高效創(chuàng)作

Luma Photon 是 Luma AI 推出的新一代圖像生成模型,用創(chuàng)新的架構(gòu)提供超高圖像質(zhì)量和低成本效率。Luma Photon支持個(gè)性化和創(chuàng)造性的圖像生成,能理解自然語(yǔ)言...
閱讀原文

TeleAI 視頻生成大模型:智能視頻創(chuàng)作助手助力內(nèi)容創(chuàng)作與傳播

TeleAI 視頻生成大模型是中國(guó)電信AI研究院推出的視頻生成模型,基于兩階段生成框架:先根據(jù)文本描述創(chuàng)建分鏡頭草圖,再基于草圖生成視頻。TeleAI 視頻生成大...
閱讀原文

TPDM:創(chuàng)新時(shí)間預(yù)測(cè)擴(kuò)散模型推動(dòng)高校科研合作與發(fā)展

TPDM(Time Prediction Diffusion Model)是西湖大學(xué)MAPLE實(shí)驗(yàn)室、南方科技大學(xué)、北京大學(xué)及西湖大學(xué)高等研究院先進(jìn)技術(shù)研究所聯(lián)合推出的圖像生成模型,能自...
閱讀原文

ConsisID:智能文本到視頻生成模型實(shí)現(xiàn)創(chuàng)意內(nèi)容的快速轉(zhuǎn)化

ConsisID是北京大學(xué)和鵬城實(shí)驗(yàn)室等機(jī)構(gòu)推出的文本到視頻(Text-to-Video, IPT2V)生成模型,基于頻率分解技術(shù)保持視頻中人物身份的一致性。模型用免調(diào)優(yōu)(tun...
閱讀原文

復(fù)旦聯(lián)合微軟等機(jī)構(gòu)推出的端到端身份一致性視頻擴(kuò)散框架

StableAnimator是復(fù)旦大學(xué)、微軟亞洲研究院、虎牙公司和卡內(nèi)基梅隆大學(xué)共同推出的端到端高質(zhì)量身份保持視頻擴(kuò)散框架。StableAnimator能根據(jù)一張參考圖像和一...
閱讀原文

I2V-01-Live:海螺AI創(chuàng)新圖生視頻模型助力創(chuàng)意內(nèi)容生成與視覺(jué)表現(xiàn)提升

I2V-01-Live是海螺AI推出的圖生視頻模型,能將靜態(tài)二維圖像轉(zhuǎn)化為動(dòng)態(tài)視頻。模型基于深度學(xué)習(xí)技術(shù),增強(qiáng)動(dòng)作的流暢度和生動(dòng)性,讓人物或?qū)ο蟮膭?dòng)作更加自然和...
閱讀原文

開(kāi)源AI檢索生成框架,自動(dòng)生成精確的SQL查詢(xún)

Vanna是開(kāi)源的Python RAG(Retrieval-Augmented Generation)框架,能幫助用戶(hù)基于大型語(yǔ)言模型(LLMs)為其數(shù)據(jù)庫(kù)生成精確的SQL查詢(xún)。Vanna用兩步簡(jiǎn)單流程操...
閱讀原文
19091929394146