AI項目和框架

AutoGLM沉思

AutoGLM沉思是智譜推出的首個免費、具備深度研究和操作能力的AI Agent,能模擬人類思維過程,處理復雜的開放式問題。AutoGLM沉思具備強大的推理能力和自主操...
閱讀原文

ObjectMover

ObjectMover 是香港大學和 Adobe Research 聯合提出的新型圖像編輯模型,解決圖像中物體移動、插入和移除時出現的光照、陰影不協調以及物體失真等問題。將物...
閱讀原文

PhysGen3D

PhysGen3D 是創新的框架,能將單張圖像轉換為交互式的 3D 場景,生成具有物理真實感的視頻。結合了基于圖像的幾何和語義理解以及基于物理的模擬,通過從單張...
閱讀原文

Vibe Draw

Vibe Draw是開源的 AI 3D建模工具,支持將用戶在2D畫布上繪制的涂鴉草圖轉化為精美的3D模型。用戶能用文本提示或繼續繪制迭代優化模型,一鍵導出為標準格式(...
閱讀原文

OmniSQL

OmniSQL 是開源的文本到 SQL 模型,將自然語言問題高效轉換為 SQL 查詢語句。通過創新的數據合成框架生成了首個百萬量級的文本到 SQL 數據集 SynSQL-2.5M,包...
閱讀原文

RoboOS

RoboOS是智源研究院推出的首個跨本體具身大小腦協作框架?;凇按竽X-小腦”分層架構,具身大腦RoboBrain負責全局感知與決策,小腦技能庫負責低延遲精準執行,...
閱讀原文

Vidu Q1

Vidu Q1 是清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍教授團隊推出的高可控視頻大模型。在多主體細節可控、音效同步可控、畫質增強等方...
閱讀原文

PaddleSpeech

PaddleSpeech 是百度飛槳團隊開源的語音處理工具,提供全面的語音處理功能,包括語音識別、語音合成、聲紋識別、語音翻譯等。PaddleSpeech提供命令行界面、服...
閱讀原文

ChatAnyone

ChatAnyone是阿里巴巴通義實驗室推出的實時風格化肖像視頻生成框架。通過音頻輸入,生成具有豐富表情和上半身動作的肖像視頻。采用高效分層運動擴散模型和混...
閱讀原文

Math24o

Math24o 是中文大模型測評基準 SuperCLUE 開源的高中奧林匹克數學競賽級別的數學推理測評基準。主要用于評估大型語言模型在數學推理方面的能力。使用2024年全...
閱讀原文

TripoSG

TripoSG 是 VAST-AI-Research 團隊推出的基于大規模修正流(Rectified Flow, RF)模型的高保真 3D 形狀合成技術, 通過大規模修正流變換器架構、混合監督訓練...
閱讀原文

TripoSF

TripoSF是VAST推出的新一代3D基礎模型,突破傳統3D建模在細節、復雜結構和擴展性上的瓶頸。采用SparseFlex表示方法,結合稀疏體素結構,僅在物體表面附近的區...
閱讀原文

DistilQwen2.5-R1

DistilQwen2.5-R1 是阿里巴巴推出的基于知識蒸餾技術的小型化系列深度推理模型,包含3B、7B、14B和32B四個參數量級的模型。DistilQwen2.5-R1將超大規模模型(...
閱讀原文

TxGemma

TxGemma 是谷歌推出的用于藥物發現的通用人工智能模型,通過 AI 技術加速藥物研發進程?;?Google 的 Gemma 框架開發,能理解常規文本以及化學物質、分子和...
閱讀原文

QVQ-Max

QVQ-Max 是阿里通義推出的視覺推理模型,是QVQ-72B-Preview的正式升級版。QVQ-Max能“看懂”圖片和視頻內容,結合信息進行分析、推理和解決問題。QVQ-Max支持應...
閱讀原文
15455565758155