AI項目和框架

Hunyuan3D-1.0

Hunyuan3D-1.0 是騰訊推出的一款3D生成模型,具備文本和圖像輸入條件,支持高質量的3D資產生成。該模型采用兩階段方法,首先使用多視角擴散模型生成多視角RGB...
閱讀原文

Hunyuan-Large

Hunyuan-Large是騰訊推出的大型混合專家(MoE)模型,具有3890億總參數量和520億激活參數量,是目前業界參數規模最大的開源MoE模型。基于Transformer架構,支...
閱讀原文

Cofounder

Cofounder是開源的全棧AI開發代理,能幫助開發者基于單一提示自動生成完整的應用程序,包括后端、前端、數據庫和有狀態的Web應用。Cofounder基于生成式AI技術...
閱讀原文

MagicTailor

MagicTailor 是專門為組件可控個性化設計的新框架,讓T2I模型在個性化過程中能夠精確控制。MagicTailor 基于兩個關鍵技術動態掩碼退化(DM-Deg)和雙流平衡(...
閱讀原文

Claude Computer Use

Claude Computer Use是Anthropic公司為Claude 3.5 Sonnet和Claude 3.5 Haiku模型推出的新功能,支持AI模型Claude執行類似人類的電腦操作,如查看屏幕、移動光...
閱讀原文

Docling

Docling是開源的文檔解析和轉換工具,能高效地將多種格式的文檔(包括PDF、DOCX、PPTX、圖片和HTML)解析,導出為Markdown或JSON格式。Docling支持高級PDF理...
閱讀原文

Cerebellum

Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver構建的瀏覽器AI智能助手,能理解任務意圖、執行網頁自動化任務,如數據抓取和網站自動化測試。Cerebe...
閱讀原文

WebRL

WebRL是清華大學、智譜AI聯合推出的自我進化的在線課程強化學習框架,訓練使用開放大型語言模型(LLMs)的高性能網絡代理。WebRL動態生成任務、結果監督獎勵...
閱讀原文

GameGen-X

GameGen-X是香港科技大學、中國科學技術大學等機構研究人員推出的擴散變換器模型,用在生成和交互控制開放世界游戲視頻。模型能模擬游戲引擎功能,如創新角色...
閱讀原文

OuteTTS

OuteTTS是開源的文本到語音(TTS)項目,基于純語言建模的方法生成語音。OuteTTS項目基于LLaMa架構,用Oute3-350M-DEV基礎模型,擁有3.5億參數。OuteTTS具備...
閱讀原文

GTA

GTA(a benchmark for General Tool Agents)是上海交通大學和上海AI實驗室共同推出的基準測試,評估大型語言模型(LLMs)在真實世界場景中調用工具的能力。G...
閱讀原文

VQAScore

VQAScore是CMU和Meta聯合推出的評估方法,基于視覺問答(VQA)模型衡量由文本提示生成的圖像質量。VQAScore用計算模型對“Does this figure show {text}?”這一...
閱讀原文

AndroidLab

AndroidLab是用在訓練和系統評估Android自主代理的框架,集成文本和圖像模態操作環境,統一行動空間和可重現基準測試。AndroidLab支持大型語言模型和多模態模...
閱讀原文

Recraft V3

Recraft V3是Recraft公司推出的AI文本到圖像生成模型,在Hugging Face的文本到圖像模型排行榜上以1172的ELO評分榮獲第一。模型具有高質量的圖像生成和先進的...
閱讀原文

Magentic-One

Magentic-One 是微軟推出的通用多智能體系統,解決跨領域的復雜網絡和文件任務。系統基于多智能體架構,由Orchestrator智能體領導,協調WebSurfer、FileSurfe...
閱讀原文