AI項目和框架
GLM-4-Voice
GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實時語音對話,能根據(jù)用戶指令靈活調(diào)整語音的情感、語調(diào)、語速和方言等特征...
EveryoneNobel
EveryoneNobel是一個開源AI工具,為每個人生成個性化的諾貝爾獎風格圖像。EveryoneNobel基于ComfyUI框架,結合HTML模板和圖像生成技術,用戶只需上傳肖像照片...
TextHarmony
TextHarmony是華東師范大學和字節(jié)跳動共同推出的多模態(tài)生成模型,擅長理解和生成視覺文本。模型基于Slide-LoRA技術,動態(tài)聚合特定于模態(tài)和模態(tài)無關的LoRA專家...
NotebookLlama
NotebookLlama是Meta推出的將PDF文檔轉(zhuǎn)換成播客內(nèi)容的開源項目。項目基于一系列自動化步驟實現(xiàn),用LLaMa模型進行PDF預處理、生成播客腳本、增加戲劇化元素及...
WonderWorld
WonderWorld是斯坦福大學和麻省理工學院共同推出的創(chuàng)新性3D場景生成框架,能從單張圖片快速生成多樣化且連貫的3D虛擬世界。基于核心的Fast LAyered Gaussian ...
PersonaTalk
PersonaTalk是字節(jié)跳動推出的基于注意力機制的兩階段框架,用在實現(xiàn)高保真度和個性化的視覺配音。PersonaTalk能在合成與目標音頻精準唇形同步的視頻的同時,...
SynthID Text
SynthID Text 是谷歌DeepMind 推出的文本水印技術,用在識別和驗證由大型語言模型(LLM)生成的文本。基于細微調(diào)整生成過程中的Token概率分數(shù)嵌入幾乎無法察...