AI項目和框架

Ferret-UI 2

Ferret-UI 2是蘋果公司推出的多模態大型語言模型,用在理解和交互移動用戶界面。Ferret-UI 2能識別和理解各種移動設備屏幕上的UI元素,執行復雜的用戶指令,...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長視頻多題問答基準測試,是浙江大學、上海人工智能實驗室、上海交通大學和香港中文大學聯合推出的。MMBench-Video能全面評估大型視覺...
閱讀原文

MiniMates

MiniMates是高性能的輕量級數字人驅動算法,具備語音和表情兩種驅動模式,能在普通電腦上實現實時運行。基于先進的技術架構,提供極致的速度體驗和個性化定制...
閱讀原文

MotionCLR

MotionCLR是基于注意力機制的人體動作生成和編輯模型,能根據文本提示生成動作,支持用戶進行交互式編輯,如動作強調、減弱、替換、擦除和風格轉移。MotionCL...
閱讀原文

DocMind

DocMind是司馬閱推出的文檔智能大模型,基于Transformer結構,融合深度學習、NLP和CV技術,能處理富文本文檔的復雜結構和視覺信息,提高信息抽取準確性。DocM...
閱讀原文

DistilQwen2

DistilQwen2是基于Qwen2大模型用知識蒸餾技術優化得到的輕量級語言模型,能提高運算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增強指令數據多樣性...
閱讀原文

Hunyuan3D-1.0

Hunyuan3D-1.0 是騰訊推出的一款3D生成模型,具備文本和圖像輸入條件,支持高質量的3D資產生成。該模型采用兩階段方法,首先使用多視角擴散模型生成多視角RGB...
閱讀原文

Hunyuan-Large

Hunyuan-Large是騰訊推出的大型混合專家(MoE)模型,具有3890億總參數量和520億激活參數量,是目前業界參數規模最大的開源MoE模型。基于Transformer架構,支...
閱讀原文

Cofounder

Cofounder是開源的全棧AI開發代理,能幫助開發者基于單一提示自動生成完整的應用程序,包括后端、前端、數據庫和有狀態的Web應用。Cofounder基于生成式AI技術...
閱讀原文

MagicTailor

MagicTailor 是專門為組件可控個性化設計的新框架,讓T2I模型在個性化過程中能夠精確控制。MagicTailor 基于兩個關鍵技術動態掩碼退化(DM-Deg)和雙流平衡(...
閱讀原文

Claude Computer Use

Claude Computer Use是Anthropic公司為Claude 3.5 Sonnet和Claude 3.5 Haiku模型推出的新功能,支持AI模型Claude執行類似人類的電腦操作,如查看屏幕、移動光...
閱讀原文

Docling

Docling是開源的文檔解析和轉換工具,能高效地將多種格式的文檔(包括PDF、DOCX、PPTX、圖片和HTML)解析,導出為Markdown或JSON格式。Docling支持高級PDF理...
閱讀原文

Cerebellum

Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver構建的瀏覽器AI智能助手,能理解任務意圖、執行網頁自動化任務,如數據抓取和網站自動化測試。Cerebe...
閱讀原文

WebRL

WebRL是清華大學、智譜AI聯合推出的自我進化的在線課程強化學習框架,訓練使用開放大型語言模型(LLMs)的高性能網絡代理。WebRL動態生成任務、結果監督獎勵...
閱讀原文

GameGen-X

GameGen-X是香港科技大學、中國科學技術大學等機構研究人員推出的擴散變換器模型,用在生成和交互控制開放世界游戲視頻。模型能模擬游戲引擎功能,如創新角色...
閱讀原文