標簽:視頻生成

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

KAT-V1

KAT-V1是快手開源的自動思考(AutoThink)大模型,包含40B和200B兩個版本。模型融合思考與非思考能力,能根據問題難度自動切換思考模式。40B版本性能逼近Deep...
閱讀原文

WorldVLA

WorldVLA是阿里巴巴達摩院和浙江大學聯合推出的自回歸動作世界模型,模型將視覺-語言-動作(VLA)模型與世界模型整合到一個單一框架中。模型基于動作和圖像理...
閱讀原文

Qwen VLo

Qwen VLo 是通義千問團隊推出的多模態統一理解與生成模型。在多模態大模型的基礎上進行了全面升級,能“看懂”世界,能基于理解進行高質量的再創造,實現了從感...
閱讀原文

Kwai Keye-VL

Kwai Keye-VL 是快手自主研發的多模態大語言模型,基于 Qwen3-8B 語言模型整合SigLIP初始化的視覺編碼器,支持動態分辨率輸入。模型能深度融合和處理文本、圖...
閱讀原文

ImmerseGen

ImmerseGen是字節跳動的PICO團隊和浙江大學聯合推出的創新3D世界生成框架。框架根據用戶輸入的文字提示,基于Agent引導的資產設計和排列,生成帶有alpha紋理...
閱讀原文

Next-Frame Diffusion

Next-Frame Diffusion(NFD)是北京大學和微軟研究院聯合推出的自回歸視頻生成模型,結合擴散模型的高保真生成能力和自回歸模型的因果性和可控性。Next-Frame...
閱讀原文

V-JEPA 2

V-JEPA 2 是Meta AI推出的世界大模型,基于視頻數據實現對物理世界的理解、預測和規劃。V-JEPA 2 用于 12 億參數的聯合嵌入預測架構(JEPA),基于自監督學習...
閱讀原文

MiMo-VL

MiMo-VL 是小米開源的多模態大模型,由視覺編碼器、跨模態投影層和語言模型構成,視覺編碼器基于Qwen2.5-ViT,語言模型是小米自研的MiMo-7B。
閱讀原文

Vid2World

Vid2World是清華大學聯合重慶大學推出的創新框架,支持將全序列、非因果的被動視頻擴散模型(VDM)轉換為自回歸、交互式、動作條件化的世界模型。模型基于視...
閱讀原文

Runway Gen-4

Runway Gen-4 是 AI 初創公司 Runway推出的高保真AI視頻生成模型。支持在多個場景中保持人物、物體和環境的一致性,無需額外精調或訓練。用戶提供一張參考圖...
閱讀原文

什么是視頻擴散模型(Video Diffusion Models, VDM)

視頻擴散模型(Video Diffusion Models, VDM)是一種結合了變分自編碼器(VAE)和擴散模型優勢的生成模型。VDM的核心思想是在潛在空間中進行擴散過程,而不是...
閱讀原文

VideoVAE+

VideoVAE+(VideoVAE Plus)是香港科技大學團隊推出的先進的跨模態視頻變分自編碼器(Video VAE),通過引入新的時空分離壓縮機制和文本指導,實現了對大幅運...
閱讀原文

顛覆視界:谷歌Sora深夜發布,4K視頻生成新時代震撼來襲!

原標題:再度狙擊OpenAI!“谷歌版”Sora深夜上線,4k視頻生成時代來了 文章來源:人工智能學家 內容字數:7502字谷歌推出全新視頻與圖像生成模型 在今日凌晨,...
閱讀原文
1234