AI項目和框架

Janus

Janus是一個由DeepSeek AI推出的自回歸框架,旨在統一多模態理解和生成任務。將視覺編碼分離成不同的路徑解決以往方法的局限性,且用單一的變換器架構進行處...
閱讀原文

PaddleOCR 2.9

PaddleOCR 2.9是由百度飛槳(PaddlePaddle)推出的一款開源光學字符識別(OCR)工具庫。提供豐富的算法和模型,支持多種語言識別,提供數據標注和合成工具。P...
閱讀原文

Mellum

Mellum 是 JetBrains 推出的一款專為開發者設計的大型語言模型(LLM),旨在提升 AI 驅動的開發工具。通過深度集成 JetBrains IDE,提供低延遲、高準確度的代...
閱讀原文

easegen

easegen是一個開源的AI+數字人課程制作項目,集成課程制作、視頻管理、智能課件生成到智能出題的全套方案。項目支持PPT課件的批量自動生成、數字人克隆、聲音...
閱讀原文

sCM

sCM是OpenAI推出的連續時間一致性模型,基于擴散模型原理進行改進。sCM簡化理論框架和優化采樣過程,實現圖像生成速度的顯著提升。sCM模型僅需兩步采樣能生成...
閱讀原文

Moonshine

Moonshine是專為資源受限設備優化的語音識別模型,提供快速且準確的實時語音轉文本服務。適于需要即時響應的應用場景,例如現場轉錄和語音命令識別。Moonshin...
閱讀原文

Time-MoE

Time-MoE是創新的時間序列基礎模型,基于混合專家(Mixture of Experts, MoE)架構,將時間序列預訓練模型的參數規模擴展至十億級別。模型用稀疏激活機制,在...
閱讀原文

Whispo

Whispo是AI驅動的語音轉錄工具,支持用戶按住Ctrl鍵錄制語音,在釋放鍵時自動將轉錄的文本插入到正在用的任何支持文本輸入的應用程序中。工具的數據處理完全...
閱讀原文

AutoGLM-Web

AutoGLM-Web是模擬用戶操作的智能瀏覽器助手,基于大型語言模型構建,能執行網頁訪問、信息檢索、內容總結等任務。基于簡單的文字或語音指令,AutoGLM-Web能...
閱讀原文

OmniGen

OmniGen是用于統一圖像生成的新擴散模型,能在單一框架內處理多種圖像生成任務,如文本到圖像的生成、圖像編輯、主題驅動生成和視覺條件生成等。OmniGen涉及...
閱讀原文

CogAgent

CogAgent是清華大學與智譜AI聯合推出的多模態視覺大模型,專注于圖形用戶界面(GUI)的理解和導航。通過視覺模態對GUI界面進行感知,非傳統的文本模態,更符...
閱讀原文

OMNE Multiagent

OMNE Multiagent是天橋腦科學研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能體框架。基于長期記憶(Long Term Memory, LTM)構建,...
閱讀原文

DuoAttention

DuoAttention是新型的框架,由MIT韓松團隊提出,用在提高大型語言模型(LLMs)在處理長上下文時的推理效率。基于區分“檢索頭”和“流式頭”兩種注意力頭,優化模...
閱讀原文

HuggingChat macOS

HuggingChat macOS是Hugging Face推出的開源聊天應用程序,專為macOS用戶設計,基于強大的開源語言模型,將先進的AI對話能力直接帶到用戶的桌面上。應用支持...
閱讀原文

OmniParser

OmniParser是微軟研究院推出的屏幕解析工具,將用戶界面的屏幕截圖轉換成結構化數據。工具專門設計用在提高基于大型語言模型(如GPT-4V)的UI代理系統的性能...
閱讀原文