AI項目和框架

Tora

Tora是阿里推出的AI視頻生成框架,基于軌跡導向的擴散變換器(DiT)技術,將文本、視覺和軌跡條件融合,生成高質量且符合物理世界動態的視頻內容。Tora由軌跡...
閱讀原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創新,Whisper-Medusa引入了多頭注意力機制,實現了并行處理,顯著提升...
閱讀原文

FoleyCrafter

FoleyCrafter是上海人工智能實驗室和香港中文大學(深圳)共同推出的AI視頻配音框架,FoleyCrafter能自動聽出視頻中的動作,配上恰到好處的聲音效果。不管是...
閱讀原文

MinerU

MinerU是上海人工智能實驗室OpenDataLab團隊推出的開源智能數據提取工具,專注于復雜PDF文檔的高效解析與提取。MinerU能將包含圖片、公式、表格等元素的多模...
閱讀原文

CogVideoX

CogVideoX是智譜AI最新推出的開源AI視頻生成模型,與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞,能生成6秒長、每秒8幀、分辨率為720*480的視頻。...
閱讀原文

PhotoMaker V2

PhotoMaker V2是騰訊推出的AI圖像生成框架,能在極短的時間內生成逼真的人物照片。與初代相比,V2版本在角色的一致性和可控性上實現了顯著提升,用戶可以通過...
閱讀原文

SEED-Story

SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基于多模態大語言模型(MLLM),能預測文本和視覺token,通過視覺de-tokenizer生...
閱讀原文

FlashFace

FlashFace是阿里聯合香港大學推出的高保真AI寫真工具。能基于用戶提供的面部圖像和文本提示,快速生成個性化的高保真人像寫真圖。FlashFace具備高保真度身份...
閱讀原文

EasyAnimate

EasyAnimate是阿里推出的AI視頻生成工具,支持文生視頻和圖生視頻兩種方式,用戶可以上傳圖片作為視頻的起始和結束畫面,實現更靈活的視頻編輯。EasyAnimate...
閱讀原文

EmoTalk3D

EmoTalk3D是華為諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在于能合成具有豐富情感表達的3D會說話頭像。EmoTalk3D能捕捉和再現...
閱讀原文

SAM 2

SAM 2(Segment Anything Model 2)是Meta推出的AI對象分割模型,專注于實時圖像和視頻對象分割。具備零樣本泛化能力,能準確分割未知對象,并通過統一架構同...
閱讀原文

Wordware

Wordware 是一個集成開發環境(IDE),可以讓任何人通過日常語言構建復雜的 AI Agent 和應用。用戶無需編程知識,就能利用預構建的工具和模型快速開發個性化...
閱讀原文

Qwen2-Math

Qwen2-Math是阿里通義千問推出的基于Qwen2語言模型構建的數學解題專用開源AI模型,專為解決復雜數學問題設計。經過數學專用語料庫的預訓練和指令微調,表現出...
閱讀原文

Aide

Aide 是免費開源的AI 編程插件,具備代碼注釋、語言轉換、智能粘貼、批量處理、變量命名和自定義命令等功能,幫助開發者快速理解、編寫和重構代碼。Aide 支持...
閱讀原文

MaxKB

MaxKB是飛致云推出的開源AI知識庫問答系統,提供開箱即用的功能,支持文檔上傳、在線文檔爬取、文本自動拆分和向量化。用戶可以快速嵌入MaxKB到第三方業務系...
閱讀原文