AI項目和框架

WebLI-100B

WebLI-100B是Google DeepMind推出的包含1000億圖像-文本對的超大規模數據集,用在預訓練視覺語言模型(VLMs)。WebLI-100B是WebLI數據集的擴展版本,基于從網...
閱讀原文

OpenThinker-32B

OpenThinker-32B 是斯坦福、UC 伯克利、華盛頓大學等機構聯合開發的開源推理模型,擁有 328 億參數,支持 16,000 token 的上下文長度。模型僅使用 114k 數據...
閱讀原文

Social Media Agent

Social Media Agent是智能的社交媒體內容管理工具,基于輸入的URL內容生成Twitter和LinkedIn帖子。Social Media Agent用人機交互 流程,處理社交媒體平臺認證...
閱讀原文

Matrix-Zero

Matrix-Zero是昆侖萬維推出的世界模型,包含兩款子模型:3D場景生成大模型和可交互視頻生成大模型。Matrix-Zero能將用戶輸入的圖片轉化為可自由探索的真實3D...
閱讀原文

GAS

GAS(Generative Avatar Synthesis from a Single Image)是卡內基梅隆大學、上海人工智能實驗室和斯坦福大學的研究人員提出的從單張圖像生成高質量、視角一...
閱讀原文

Magic 1-For-1

Magic 1-For-1是北京大學、Hedra Inc. 和 Nvidia 推出的高效視頻生成模型,基于優化內存消耗和推理延遲快速生成高質量視頻片段。模型將復雜的文本到視頻生成...
閱讀原文

Goedel-Prover

Goedel-Prover(哥德爾證明器)是普林斯頓大學、清華大學、清華大學等機構推出的開源大型語言模型(LLM),用在自動化數學問題的形式證明生成。基于將自然語...
閱讀原文

RWKV-7-2.9B

RWKV-7-2.9B模型(RWKV-7-World-2.9B-V3) 是RWKV 基金推出的先進 RNN 大語言模型。基于 RWKV World V3 數據集訓練,具有 29 億參數,支持世界所有語言。模型...
閱讀原文

AxBench

AxBench 是斯坦福大學推出的評估語言模型(LM)控制方法的基準測試框架。基于合成數據生成訓練和評估數據,比較不同模型控制技術在概念檢測和模型轉向兩個方...
閱讀原文

Lumina-Video

Lumina-Video是上海 AI Lab 和香港中文大學推出的視頻生成框架,基于Next-DiT架構,針對視頻生成中的時空復雜性進行優化。基于多尺度Next-DiT架構,用不同大...
閱讀原文

Pippo

Pippo是Meta Reality Labs推出的圖像到視頻生成模型,能從單張照片生成1K分辨率的多視角高清人像視頻。模型基于多視角擴散變換器,預訓練了30億張人像圖像,...
閱讀原文

Animate Anyone 2

Animate Anyone 2 是阿里巴巴集團通義實驗室推出的高保真角色圖像動畫生成技術,通過結合環境信息生成更具真實感的角色動畫。與傳統方法不同,能從視頻中提取...
閱讀原文

AuraFusion360

AuraFusion360是用于360°無邊界場景修復的新型基于參考的方法,主要用于虛擬現實和建筑可視化等領域的三維場景修復。通過高斯散射表示的3D場景,實現了高質量...
閱讀原文

Zonos

Zonos是Zyphra推出的高保真文本到語音(TTS)模型。Zonos包含兩個模型:16億參數的Transformer模型和SSM混合模型,均在Apache 2.0許可下開源。Zonos根據文本...
閱讀原文

ProtGPS

ProtGPS(Protein Localization Prediction Model)是麻省理工學院(MIT)和懷特黑德生物醫學研究所推出的,基于深度學習的蛋白質語言模型,用在預測蛋白質在...
閱讀原文
17475767778155