AI項(xiàng)目和框架

VtripGPT

VtripGPT是視旅科技推出的專注于旅游領(lǐng)域的AI大模型,基于深度合成服務(wù)為旅游對(duì)話生成提供智能支持。模型基于Transformer架構(gòu),結(jié)合旅游行業(yè)數(shù)據(jù)和常規(guī)知識(shí)進(jìn)...
閱讀原文

D-Edit

D-Edit是基于圖像和文本的多功能圖像編輯框架,基于預(yù)訓(xùn)練的擴(kuò)散模型和獨(dú)特的提示(prompts)實(shí)現(xiàn)對(duì)圖像中特定項(xiàng)目的精確控制和編輯。框架能處理包括基于圖像...
閱讀原文

PromptFix

PromptFix是微軟開發(fā)的開源AI圖像修復(fù)工具,基于擴(kuò)散模型技術(shù),能根據(jù)用戶指令處理?yè)p壞的圖片,移除不需要的元素。PromptFix支持多種圖像處理任務(wù),包括上色...
閱讀原文

Red_Panda

Red_Panda 是 Recraft V3 在發(fā)布初期使用的化名,是Recraft AI推出的先進(jìn)AI圖像生成模型,以卓越的性能在圖像生成領(lǐng)域樹立新標(biāo)準(zhǔn)。在Hugging Face的Text-to-I...
閱讀原文

Show-o

Show-o是集成了多模態(tài)理解和生成的統(tǒng)一Transformer模型。通過(guò)結(jié)合自回歸和離散擴(kuò)散建模,能靈活處理包括視覺(jué)問(wèn)答、文本到圖像生成、文本引導(dǎo)的修復(fù)和擴(kuò)展,混...
閱讀原文

MimicTalk

MimicTalk是浙江大學(xué)和字節(jié)跳動(dòng)共同研發(fā)推出的,基于NeRF(神經(jīng)輻射場(chǎng))技術(shù),能在極短的時(shí)間內(nèi),僅需15分鐘訓(xùn)練出個(gè)性化和富有表現(xiàn)力的3D說(shuō)話人臉模型。Mimi...
閱讀原文

Wonder Animation

Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的創(chuàng)新 AI 技術(shù),Wonder Animation測(cè)試版現(xiàn)已上線Wonder Studio。Wonder Animation基于 Video to 3D...
閱讀原文

TimeSuite

TimeSuite是上海AI Lab推出的新型框架,能提升多模態(tài)大型語(yǔ)言模型(MLLMs)在長(zhǎng)視頻理解任務(wù)中的表現(xiàn)。基于引入高效的長(zhǎng)視頻處理框架、高質(zhì)量的視頻數(shù)據(jù)集Tim...
閱讀原文

EMMA

EMMA是Waymo基于Gemini模型推出的端到端自動(dòng)駕駛多模態(tài)模型,能將原始相機(jī)傳感器數(shù)據(jù)直接映射到駕駛特定輸出,如規(guī)劃軌跡、感知對(duì)象和道路圖元素。EMMA將非傳...
閱讀原文

DreamVideo-2

DreamVideo-2是創(chuàng)新的零樣本視頻定制框架,是復(fù)旦大學(xué)和阿里巴巴集團(tuán)等機(jī)構(gòu)聯(lián)合推出。DreamVideo-2能根據(jù)單一圖像和界定框序列生成具有特定主題和精確運(yùn)動(dòng)軌...
閱讀原文

NotebookMLX

NotebookMLX是開源版本的NotebookLM,集成NotebookLlama的功能,能將PDF文檔轉(zhuǎn)換成易于理解和分享的音頻播客形式。項(xiàng)目基于MLX技術(shù)實(shí)現(xiàn)自然語(yǔ)言處理功能,包...
閱讀原文

HOVER

HOVER是英偉達(dá)推出的1.5M小模型,全稱為“Humanoid Versatile Controller”,即人形機(jī)器人的多功能全身神經(jīng)通用控制器。模型用150萬(wàn)參數(shù)實(shí)現(xiàn)對(duì)機(jī)器人復(fù)雜動(dòng)作的...
閱讀原文

Voice Changer

Voice Changer是Cartesia推出的新模型,能將任何音頻剪輯的語(yǔ)音轉(zhuǎn)換成其他音色,且保留原始音頻的情感和表達(dá)。用戶從Cartesia提供的多種高質(zhì)量聲音庫(kù)中選擇,...
閱讀原文

Oasis

Oasis是世界上首款A(yù)I實(shí)時(shí)生成的游戲,由Decart和Etched聯(lián)合推出。游戲能以每秒20幀的速度實(shí)時(shí)渲染交互式視頻內(nèi)容,無(wú)需游戲引擎,通過(guò)AI模型直接生成。玩家可...
閱讀原文

夸克靈知大模型

夸克靈知是夸克公司全新推出的智能學(xué)習(xí)學(xué)習(xí)大模型,具備博士生級(jí)別的推理能力。基于AI技術(shù)為用戶提供分步驟題目講解,能隨時(shí)回答問(wèn)題。在考研數(shù)學(xué)等題目的正...
閱讀原文