AI項(xiàng)目和框架
SynCamMaster:多視角視頻生成模型引領(lǐng)視頻創(chuàng)作新紀(jì)元
SynCamMaster是浙江大學(xué)、快手科技、清華大學(xué)和香港中文大學(xué)的研究人員共同合作推出的全球首個多視角視頻生成模型,能結(jié)合6自由度相機(jī)姿勢,從任意視點(diǎn)生成開...
蘋果推出的視頻生成大模型
STIV(Scalable Text and Image Conditioned Video Generation)是蘋果公司推出的視頻生成大模型。STIV擁有8.7億參數(shù),能處理文本到視頻(T2V)和文本圖像到...
AI 漫畫生成框架,能生成可控的黑白漫畫面板
DiffSensei是北京大學(xué)、上海AI實(shí)驗(yàn)室及南洋理工大學(xué)的研究人員共同推出的漫畫生成框架,能生成可控的黑白漫畫面板。DiffSensei整合基于擴(kuò)散的圖像生成器和多...
Maya:全球領(lǐng)先的智能家居助手提升生活便利性與安全性
Maya是開源的多語言多模態(tài)模型,基于指令微調(diào)擴(kuò)展模型在多種語言和文化背景下的能力。Maya基于LLaVA框架,包含新創(chuàng)建的包含八種語言的預(yù)訓(xùn)練數(shù)據(jù)集,提高視覺...
巨人網(wǎng)絡(luò)推出的有聲游戲生成大模型
千影 QianYing是巨人網(wǎng)絡(luò)推出的有聲游戲生成大模型,包含游戲視頻生成大模型YingGame和視頻配音大模型YingSound。YingGame面向開放世界游戲,是巨人網(wǎng)絡(luò)AI La...
輕量級LLM應(yīng)用開發(fā)框架,通過一行代碼切換不同LLM
Promptic是輕量級的LLM應(yīng)用開發(fā)框架,提供高效且符合Python風(fēng)格的開發(fā)方式。基于LiteLLM,Promptic支持開發(fā)者能輕松切換不同的LLM服務(wù)提供商,只需更改一行代...
Ultravox:智能多模態(tài)助手實(shí)現(xiàn)文本與語音的無縫理解
Ultravox是新型的多模態(tài)大型語言模型(LLM),能直接理解文本和人類語音,無需依賴單獨(dú)的自動語音識別(ASR)階段。基于多模態(tài)投影器技術(shù)將音頻數(shù)據(jù)轉(zhuǎn)換為高...
谷歌推出的瀏覽網(wǎng)站智能體,能幫用戶操作表格、在線購物
Project Mariner 是谷歌 DeepMind 推出的瀏覽器助手。Project Mariner基于 Gemini 2.0 技術(shù),用 Chrome 擴(kuò)展程序?qū)崿F(xiàn)瀏覽器自動化,理解和執(zhí)行網(wǎng)頁任務(wù)。Proj...
開源的實(shí)時多模態(tài) AI 代理框架
TEN Agent是集成OpenAI Realtime API和RTC技術(shù)的開源實(shí)時多模態(tài)AI代理框架。TEN Agent能實(shí)現(xiàn)語音、文本、圖像的多模態(tài)交互,支持高性能的實(shí)時通信,具備低延...
FLOAT:音頻驅(qū)動的流匹配技術(shù)實(shí)現(xiàn)動態(tài)說話人頭像生成
FLOAT是DeepBrain AI 和韓國先進(jìn)科技研究院推出的音頻驅(qū)動說話人頭像生成模型,基于流匹配生成模型,學(xué)習(xí)運(yùn)動潛在空間實(shí)現(xiàn)高效的時間一致性運(yùn)動設(shè)計。模型基...
MMAudio:高質(zhì)量AI音頻合成的多模態(tài)聯(lián)合訓(xùn)練技術(shù)創(chuàng)新
MMAudio是先進(jìn)視頻到音頻合成技術(shù),基于多模態(tài)聯(lián)合訓(xùn)練,讓模型能在廣泛的視聽和音頻文本數(shù)據(jù)集上進(jìn)行訓(xùn)練。技術(shù)的核心是同步模塊,確保生成的音頻與視頻幀精...
谷歌推出的原生多模態(tài)輸入輸出 + Agent 為核心的AI模型
Gemini 2.0是谷歌最新推出的原生多模態(tài)輸入輸出的AI模型。Gemini 2.0 Flash是2.0家族第一個模型,以多模態(tài)輸入輸出和Agent技術(shù)為核心,速度比 1.5 Pro快兩倍...
書生·萬象InternVL 2.5:創(chuàng)新驅(qū)動的多模態(tài)大語言模型提升智能交互體驗(yàn)
書生·萬象InternVL 2.5是上海AI實(shí)驗(yàn)室的OpenGVLab團(tuán)隊(duì)推出的開源多模態(tài)大型語言模型(MLLM)系列。該系列模型在InternVL 2.0的基礎(chǔ)上進(jìn)行顯著增強(qiáng),特別是在...
開源文本轉(zhuǎn)語音工具,ChatTTS擴(kuò)展版支持語音克隆
ChatTTSPlus是ChatTTS的擴(kuò)展版本,基于集成TensorRT加速、語音克隆和移動模型部署等先進(jìn)技術(shù),提升語音合成的性能和靈活性。在Windows平臺上,能實(shí)現(xiàn)超過3倍...
FineWeb 2:多語言預(yù)訓(xùn)練數(shù)據(jù)集助力全球NLP應(yīng)用的創(chuàng)新與發(fā)展
FineWeb 2是Hugging Face推出的多語言預(yù)訓(xùn)練數(shù)據(jù)集,覆蓋超過1000種語言。FineWeb 2基于定制化的數(shù)據(jù)管道處理,包括語言識別、去重、內(nèi)容過濾和PII匿名化,適...
粵公網(wǎng)安備 44011502001135號