AI項目和框架

RepText

RepText 是Shakker Labs 和 Liblib AI推出的多語言視覺文本渲染框架,基于復制字形而非理解文本內容實現高質量的文本渲染。框架基于預訓練的單語言文本到圖像...
閱讀原文

Xiaomi MiMo

Xiaomi MiMo 是小米開源的首個推理(Reasoning)大模型,支持提升模型在復雜推理任務中的表現。模型基于聯動預訓練和后訓練,挖掘大量富推理語料并采用創新的...
閱讀原文

NodeRAG

NodeRAG 是基于異構圖的檢索增強生成(Retrieval-Augmented Generation,RAG)系統。通過構建包含多種節點類型的異構圖,將文檔信息和語言模型生成的見解整合...
閱讀原文

Ev-DeblurVSR

Ev-DeblurVSR是中國科學技術大學、合肥綜合性國家科學中心人工智能研究所和新加坡國立大學聯合推出的視頻畫面增強模型,能從低分辨率且模糊的視頻輸入中恢復...
閱讀原文

Qwen3

Qwen3 是阿里巴巴推出的新一代大型語言模型,Qwen3 支持“思考模式”和“非思考模式”兩種工作方式,思考模式模型會逐步推理,經過深思熟慮后給出最終答案,適合...
閱讀原文

ChatDLM

ChatDLM是 Qafind Labs推出的新一代對話生成大模型,核心定位是突破傳統Transformer架構在長上下文處理與推理效率上的瓶頸。模型融合了“區塊擴散(Block Diff...
閱讀原文

DeepSeek-R1T-Chimera

DeepSeek-R1T-Chimera 是TNG科技公司推出的開源語言模型。結合 DeepSeek V3-0324 和DeepSeek R1兩種模型的優勢,基于創新的構建方法,將兩者的神經網絡組件融...
閱讀原文

UniToken

UniToken 是新型的自回歸生成模型,專為多模態理解與生成任務設計。通過結合離散和連續的視覺表示,構建了一種統一的視覺編碼框架,能同時捕捉圖像的高級語義...
閱讀原文

DreamO

DreamO 是字節跳動創作團隊聯合北京大學深圳研究生院電子與計算機工程學院聯合推出的用在圖像定制生成的統一框架,基于預訓練的擴散變換器(DiT)模型實現多...
閱讀原文

Spatial-RAG

Spatial-RAG(Spatial Retrieval-Augmented Generation)是美國埃默里大學、德克薩斯大學奧斯汀分校推出的用在提升大型語言模型(LLMs)空間推理能力的框架。...
閱讀原文

Concept Lancet

Concept Lancet(CoLan)是賓夕法尼亞大學的研究團隊推出的零樣本、即插即用的圖像編輯框架。Concept Lancet基于在潛在空間中對圖像進行稀疏分解,將圖像表示...
閱讀原文

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 構建的開源項目,用在開發與 WhatsApp 用戶互動的 AI Agent。項目支持多代理架構和圖譜處理,能處理文...
閱讀原文

WebSSL

WebSSL(Web-scale Self-Supervised Learning)是Meta、紐約大學等機構推出的視覺自監督學習(SSL)系列模型,基于大規模網絡數據(如數十億圖像)訓練視覺模...
閱讀原文

Paper2Code

Paper2Code 是韓國科學技術院和DeepAuto.ai聯合推出的多 Agent 大語言模型(LLM)框架,支持將機器學習領域的科學論文自動轉換為可運行的代碼倉庫。
閱讀原文

EmaFusion

EmaFusion 是人工智能初創公司 Ema 推出的多模型融合技術,為企業級 AI 應用提供高效、靈活且低成本的解決方案。通過動態結合 100 多種語言模型,根據任務需...
閱讀原文
13536373839146