AI項目和框架

Qwen2.5

Qwen2.5 是阿里通義千問團隊最新開源的最強AI大模型,具有多種參數規模的模型,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B。模型在預訓練時使用了最新的大規...
閱讀原文

abab-video-1

abab-video-1是MiniMax公司推出的首款AI高清視頻生成模型,模型支持生成最高1280x720分辨率、25fps的高清視頻,具備電影感的鏡頭移動效果,能根據文本描述快...
閱讀原文

abab-music-1

abab-music-1 是 MiniMax 推出的一款端到端 AI 音樂生成大模型。支持多功能端到端音樂生成,能合成多種音樂形式,包括純音樂和清唱作品,同時滿足伴奏和人聲...
閱讀原文

FineVideo

FineVideo是由Hugging Face推出的一個大型多模態視頻數據集,專注于視頻理解領域中的復雜任務,如情緒分析、故事敘述和媒體編輯。FineVideo包含超過43,000個Y...
閱讀原文

Draw an Audio

Draw an Audio 是中國科學院自動化研究所和美團點評的研究人員推出的視頻生成音頻系統。根據視頻內容自動生成匹配的聲音效果,類似于電影制作中的 Foley 藝術...
閱讀原文

CogVideoX-5B-I2V

CogVideoX-5B-I2V 是智譜 AI 開源的一款圖生視頻模型,通過一張圖片和文本提示詞生成視頻。模型采用了3D 因果變分自編碼器和專家自適應 LayerNorm 技術,能輸...
閱讀原文

RapidPages

RapidPages 是一個開源的集成開發環境(IDE),專注于基于AI技術快速生成 React 和 Tailwind CSS 的 UI 組件。基于自然語言處理,支持用戶僅通過描述所需界面...
閱讀原文

Ovis1.6

Ovis1.6是阿里國際AI團隊推出的多模態大模型,在多模態權威綜合評測基準OpenCompass上取得了優異的成績,特別是在30億參數以下的模型中綜合得分排名第一,超...
閱讀原文

Gummy

Gummy是通義實驗室在2024年云棲大會上推出的端到端語音翻譯大模型。模型能實時流式生成語音識別與翻譯結果,支持包括中文、英語、粵語、日語、韓語、法語、德...
閱讀原文

cogvlm2-llama3-caption

cogvlm2-llama3-caption模型是一個基于CogVLM2架構的視頻描述生成模型。模型用于理解視頻內容,自動生成描述視頻內容的文本標題或字幕。
閱讀原文

StoryMaker

StoryMaker 是小紅書開源的一款文本到圖像生成工具,專注于幫助創作者在連續圖像內容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技術,確保...
閱讀原文

CogVideoX-Fun

CogVideoX-Fun是一個基于CogVideoX結合EasyAnimate修改的AI視頻生成整合包,提供了更自由的生成條件,支持文字生成視頻、圖片生成視頻以及視頻生成視頻。工具...
閱讀原文

ItiNera

ItiNera 是港大和MIT聯合開發的智能城市行程規劃系統。基于大型語言模型(LLM)和空間優化技術,根據用戶的個性化需求,如情侶酒吧、二次元圣地等,一鍵生成C...
閱讀原文

華知大模型5.0

華知大模型5.0是同方知網與華為云聯合推出的AI大模型,具備多模態理解和生成能力。華知大模型5.0的最大亮點在于多維模型的構建能力,涵蓋從7B到135B不等的多...
閱讀原文

LVCD

LVCD(Large Video Color Diffusion)是一個專為動畫視頻線稿上色設計的視頻擴散框架,能將黑白線稿自動轉化為彩色動畫視頻。LVCD使用了一種先進的擴散模型,...
閱讀原文