AI項目和框架
AI 客戶端,基于 MCP 支持多語言和自動化安裝
ChatMCP 是基于模型上下文協議(MCP)的 AI 聊天客戶端,支持與各種大型語言模型(LLM)如 OpenAI、Claude 和 OLLama 等進行交互。ChatMCP具備自動化安裝 MCP...
谷歌推出支持多模態交互、低延遲實時互動的AI接口
Multimodal Live API 是谷歌推出的低延遲、雙向交互的AI接口,支持文本、音頻和視頻輸入,用音頻和文本形式輸出,能幫助開發者構建具有實時音頻和視頻流功能...
用于測試不同LLM編程能力的在線平臺
CodeArena是在線平臺,基于讓多個大型語言模型(LLM)同時構建相同的應用程序,實時顯示排名結果,比較LLM生成代碼的能力。CodeArena平臺主要評估和比較不同L...
SynCamMaster:多視角視頻生成模型引領視頻創作新紀元
SynCamMaster是浙江大學、快手科技、清華大學和香港中文大學的研究人員共同合作推出的全球首個多視角視頻生成模型,能結合6自由度相機姿勢,從任意視點生成開...
蘋果推出的視頻生成大模型
STIV(Scalable Text and Image Conditioned Video Generation)是蘋果公司推出的視頻生成大模型。STIV擁有8.7億參數,能處理文本到視頻(T2V)和文本圖像到...
AI 漫畫生成框架,能生成可控的黑白漫畫面板
DiffSensei是北京大學、上海AI實驗室及南洋理工大學的研究人員共同推出的漫畫生成框架,能生成可控的黑白漫畫面板。DiffSensei整合基于擴散的圖像生成器和多...
Maya:全球領先的智能家居助手提升生活便利性與安全性
Maya是開源的多語言多模態模型,基于指令微調擴展模型在多種語言和文化背景下的能力。Maya基于LLaVA框架,包含新創建的包含八種語言的預訓練數據集,提高視覺...
巨人網絡推出的有聲游戲生成大模型
千影 QianYing是巨人網絡推出的有聲游戲生成大模型,包含游戲視頻生成大模型YingGame和視頻配音大模型YingSound。YingGame面向開放世界游戲,是巨人網絡AI La...
輕量級LLM應用開發框架,通過一行代碼切換不同LLM
Promptic是輕量級的LLM應用開發框架,提供高效且符合Python風格的開發方式。基于LiteLLM,Promptic支持開發者能輕松切換不同的LLM服務提供商,只需更改一行代...
Ultravox:智能多模態助手實現文本與語音的無縫理解
Ultravox是新型的多模態大型語言模型(LLM),能直接理解文本和人類語音,無需依賴單獨的自動語音識別(ASR)階段。基于多模態投影器技術將音頻數據轉換為高...
谷歌推出的瀏覽網站智能體,能幫用戶操作表格、在線購物
Project Mariner 是谷歌 DeepMind 推出的瀏覽器助手。Project Mariner基于 Gemini 2.0 技術,用 Chrome 擴展程序實現瀏覽器自動化,理解和執行網頁任務。Proj...
開源的實時多模態 AI 代理框架
TEN Agent是集成OpenAI Realtime API和RTC技術的開源實時多模態AI代理框架。TEN Agent能實現語音、文本、圖像的多模態交互,支持高性能的實時通信,具備低延...
FLOAT:音頻驅動的流匹配技術實現動態說話人頭像生成
FLOAT是DeepBrain AI 和韓國先進科技研究院推出的音頻驅動說話人頭像生成模型,基于流匹配生成模型,學習運動潛在空間實現高效的時間一致性運動設計。模型基...
MMAudio:高質量AI音頻合成的多模態聯合訓練技術創新
MMAudio是先進視頻到音頻合成技術,基于多模態聯合訓練,讓模型能在廣泛的視聽和音頻文本數據集上進行訓練。技術的核心是同步模塊,確保生成的音頻與視頻幀精...
谷歌推出的原生多模態輸入輸出 + Agent 為核心的AI模型
Gemini 2.0是谷歌最新推出的原生多模態輸入輸出的AI模型。Gemini 2.0 Flash是2.0家族第一個模型,以多模態輸入輸出和Agent技術為核心,速度比 1.5 Pro快兩倍...