AI項目和框架

Time-MoE

Time-MoE是創新的時間序列基礎模型,基于混合專家(Mixture of Experts, MoE)架構,將時間序列預訓練模型的參數規模擴展至十億級別。模型用稀疏激活機制,在...
閱讀原文

Whispo

Whispo是AI驅動的語音轉錄工具,支持用戶按住Ctrl鍵錄制語音,在釋放鍵時自動將轉錄的文本插入到正在用的任何支持文本輸入的應用程序中。工具的數據處理完全...
閱讀原文

AutoGLM-Web

AutoGLM-Web是模擬用戶操作的智能瀏覽器助手,基于大型語言模型構建,能執行網頁訪問、信息檢索、內容總結等任務。基于簡單的文字或語音指令,AutoGLM-Web能...
閱讀原文

OmniGen

OmniGen是用于統一圖像生成的新擴散模型,能在單一框架內處理多種圖像生成任務,如文本到圖像的生成、圖像編輯、主題驅動生成和視覺條件生成等。OmniGen涉及...
閱讀原文

CogAgent

CogAgent是清華大學與智譜AI聯合推出的多模態視覺大模型,專注于圖形用戶界面(GUI)的理解和導航。通過視覺模態對GUI界面進行感知,非傳統的文本模態,更符...
閱讀原文

OMNE Multiagent

OMNE Multiagent是天橋腦科學研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能體框架。基于長期記憶(Long Term Memory, LTM)構建,...
閱讀原文

DuoAttention

DuoAttention是新型的框架,由MIT韓松團隊提出,用在提高大型語言模型(LLMs)在處理長上下文時的推理效率。基于區分“檢索頭”和“流式頭”兩種注意力頭,優化模...
閱讀原文

HuggingChat macOS

HuggingChat macOS是Hugging Face推出的開源聊天應用程序,專為macOS用戶設計,基于強大的開源語言模型,將先進的AI對話能力直接帶到用戶的桌面上。應用支持...
閱讀原文

OmniParser

OmniParser是微軟研究院推出的屏幕解析工具,將用戶界面的屏幕截圖轉換成結構化數據。工具專門設計用在提高基于大型語言模型(如GPT-4V)的UI代理系統的性能...
閱讀原文

Ditto

Ditto是基于Flask的應用程序生成器,用戶基于簡單的自然語言描述創建多文件的Web應用程序。工具用一個簡單的LLM循環和一些輔助工具自動化編碼過程,將用戶的...
閱讀原文

Flux.1 Lite

Flux.1 Lite是Freepik團隊推出的輕量級AI模型,目前處于alpha版本。Flux.1 Lite是基于80億參數的transformer架構,從FLUX.1-dev模型中提取而來。Flux.1 Lite...
閱讀原文

Phidata

Phidata是開源的AI智能體框架,幫助開發者構建具有記憶、知識、工具和推理能力的智能代理系統。支持創建能夠協同工作的代理團隊,提供用戶界面實現與代理的交...
閱讀原文

Allegro

Allegro是由Rhymes AI推出的先進的文本到視頻生成模型,能將簡單的文本輸入轉換成高達720p分辨率、每秒15幀、長度達6秒的高質量視頻內容。模型在視頻生成領域...
閱讀原文

FakeShield

FakeShield是北京大學研究人員推出的多模態大型語言模型框架,能檢測和定位圖像偽造。框架能評估圖像的真實性,生成被篡改區域的掩碼,提供基于像素級和圖像...
閱讀原文

MaskGCT

MaskGCT是趣丸科技與香港中文大學(深圳)合作推出的語音合成大模型,基于掩碼生成模型與語音表征解耦編碼的技術,實現在聲音克隆、跨語種合成、語音控制等任...
閱讀原文