一個基于深度學習的圖像和視頻描述模型。
輕量級嵌套架構,用于語音反欺詐。
用于視頻生成的下一幀預測模型。
開源視頻生成模型,支持多種生成任務。
強大的語言模型,支持多種自然語言處理任務。
Pusa 是一個新穎的視頻擴散模型,支持多種視頻生成任務。
一種通過視覺上下文學習的通用圖像生成框架。
為 Diffusion Transformer 提供高效靈活的控制框架。
彩云科技推出的AI翻譯工具,提供高效、精準的翻譯服務,支持多種語言之間的互譯,適用于多種應用場景。
業界首個超大規模混合 Mamba 推理模型,強推理能力。
Pruna 是一個模型優化框架,幫助開發者快速高效交付模型。
實現靈活且高保真度的圖像生成,同時保持身份特征。
一種用于手術內窺鏡圖像低光照增強的T-Diffusion模型。
AI研究資源導航網站,提供AI研究資源、文檔和實踐案例
一種提升場景級視頻生成能力的技術。
Tarsier 是由字節跳動推出的用于生成高質量視頻描述的大型視頻語言模型。
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
LLaSA: 擴展基于 LLaMA 的語音合成的訓練時間和測試時間計算量
YuE是一個開源的音樂生成模型,能夠將歌詞轉化為完整的歌曲。
在線學習Python、AI、大模型、AI寫作繪畫課程,零基礎輕松入門。
Huginn-0125是一個35億參數的潛變量循環深度模型,擅長推理和代碼生成。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 構建,具備強大的推理和多領域應用能力。
VideoLLaMA3是前沿的多模態基礎模型,專注于圖像和視頻理解。
一種新穎的圖像到視頻采樣技術,基于Hunyuan模型實現高質量視頻生成。
Janus-Pro-1B 是一個統一多模態理解和生成的自回歸框架。
UniTok是一個用于視覺生成和理解的統一視覺分詞器。
HunyuanVideo-I2V 是騰訊推出的基于 HunyuanVideo 的圖像到視頻生成框架。
Inductive Moment Matching 是一種新型的生成模型,用于高質量圖像生成。
一種無混疊的任意尺度超分辨率方法。
Frames 是 Runway 推出的高級圖像生成基礎模型,提供前所未有的風格控制和視覺保真度。
OmniThink 是一種通過模擬人類思考過程來提升機器寫作知識密度的框架。
一個基于文本生成圖像的預訓練模型,具有80億參數和Apache 2.0開源許可。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙