AI項目和框架

EveryoneNobel

EveryoneNobel是一個開源AI工具,為每個人生成個性化的諾貝爾獎風格圖像。EveryoneNobel基于ComfyUI框架,結合HTML模板和圖像生成技術,用戶只需上傳肖像照片...
閱讀原文

TextHarmony

TextHarmony是華東師范大學和字節跳動共同推出的多模態生成模型,擅長理解和生成視覺文本。模型基于Slide-LoRA技術,動態聚合特定于模態和模態無關的LoRA專家...
閱讀原文

BlinkShot

BlinkShot是實時AI圖像生成器,能迅速生成高質量的圖像。用戶只需輸入提示,BlinkShot能在幾毫秒內生成圖像。工具基于Together AI的Flux Schnell技術,支持自...
閱讀原文

NotebookLlama

NotebookLlama是Meta推出的將PDF文檔轉換成播客內容的開源項目。項目基于一系列自動化步驟實現,用LLaMa模型進行PDF預處理、生成播客腳本、增加戲劇化元素及...
閱讀原文

WonderWorld

WonderWorld是斯坦福大學和麻省理工學院共同推出的創新性3D場景生成框架,能從單張圖片快速生成多樣化且連貫的3D虛擬世界。基于核心的Fast LAyered Gaussian ...
閱讀原文

Meissonic

Meissonic是由阿里巴巴集團、Skywork AI等多所大學合作推出的文本到圖像合成模型。基于掩蔽圖像建模技術,結合多模態和單模態Transformer層、高級位置編碼策...
閱讀原文

Zamba2-7B

Zamba2-7B是Zyphra公司推出的小型語言模型,基于創新的架構在保持輸出質量的同時實現快速的推理速度和低內存占用。模型在處理圖像描述等任務時表現出色,適合...
閱讀原文

PersonaTalk

PersonaTalk是字節跳動推出的基于注意力機制的兩階段框架,用在實現高保真度和個性化的視覺配音。PersonaTalk能在合成與目標音頻精準唇形同步的視頻的同時,...
閱讀原文

OpenSPG

OpenSPG是螞蟻集團聯合OpenKG社區推出的基于SPG框架的知識圖譜引擎。OpenSPG融合LPG的結構性和RDF的語義性,克服RDF/OWL語義復雜難以落地的問題,繼承LPG結構...
閱讀原文

LongVU

LongVU是Meta AI團隊推出的長視頻理解模型,基于時空自適應壓縮機制。解決處理長視頻時受限于大型語言模型(LLM)上下文大小的挑戰。LongVU基于跨模態查詢和...
閱讀原文

SynthID Text

SynthID Text 是谷歌DeepMind 推出的文本水印技術,用在識別和驗證由大型語言模型(LLM)生成的文本。基于細微調整生成過程中的Token概率分數嵌入幾乎無法察...
閱讀原文

Video-XL

Video-XL是北京智源人工智能研究院聯合上海交大、中國人民大學、中科院、北郵和北大的研究人員共同推出的專為小時級視頻理解設計的超長視覺理解模型。基于視...
閱讀原文

Embed3

Embed3是Cohere公司推出的行業領先的多模態AI搜索模型,能從文本和圖像生成嵌入向量,幫助企業快速準確地搜索復雜報告、產品目錄和設計文件等多模態資產。Emb...
閱讀原文

DriveDreamer4D

DriveDreamer4D是用在提升自動駕駛場景4D重建質量的框架,基于世界模型先驗增強4D駕駛場景的表示。框架能基于真實世界的駕駛數據合成新的軌跡視頻,用明確結...
閱讀原文

Animate-X

Animate-X是基于LDM的通用動畫框架,能將靜態圖像轉化為動態視頻,擅長處理擬人化角色。 通過引入姿勢指示器,增強了對運動模式的捕捉能力,包括隱式和顯式運...
閱讀原文