AI項目和框架

LongReward

LongReward是清華大學、中國科學院、智譜AI聯合推出的,基于AI反饋改進長文本大型語言模型(LLMs)性能的方法。LongReward從有用性、邏輯性、忠實性和完整性...
閱讀原文

Fish Agent

Fish Agent是FishAudio推出的創新的端到端語音處理模型,集成自動語音識別(ASR)和文本到語音(TTS)技術,無需傳統的語義編碼器/解碼器,即可實現語音到語...
閱讀原文

MeetingMind

MeetingMind是AI驅動的會議助手,基于錄音和文件上傳功能自動轉錄會議音頻,從中提取關鍵信息,如任務、決策和問題,幫助用戶輕松捕獲和分析會議內容,采取行...
閱讀原文

星辰大模型

星辰大模型平臺是中國電信推出的AI大模型集合平臺,覆蓋語義、視覺、語音等多模態領域。包含不同參數量級的模型,支持長文本處理,具備多語種語音識別和多任...
閱讀原文

Fast GraphRAG

Fast GraphRAG 是微軟推出的高效的知識圖譜檢索框架,旨在提供可解釋性和高精度的代理驅動檢索工作流。它結合了檢索增強生成(RAG)技術和知識圖譜,提升大型...
閱讀原文

Stagehand

Stagehand是簡單和可擴展的AI網頁瀏覽框架,是Playwright的繼承者,提供act、extract和observe三個簡單的API,支持自然語言驅動的網頁操作。Stagehand提供一...
閱讀原文

VideoTuna

VideoTuna是集成多種AI視頻生成模型的代碼庫,支持文本到視頻、圖像到視頻和文本到圖像的轉換。VideoTuna提供預訓練、持續訓練、后訓練對齊和微調等全面視頻...
閱讀原文

ComfyUI-MochiEdit

ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的開源視頻編輯工具,基于將視頻轉換為噪聲、重新采樣實現視頻編輯,支持局部編輯和視頻轉視頻功能。用戶能調整...
閱讀原文

HiCo

HiCo是360 AI研究院推出的基于擴散模型的層次化可控布局到圖像生成模型,HiCo基于多分支結構設計,實現對對象位置和文本描述的精確控制。HiCo的關鍵特點在于...
閱讀原文

Ferret-UI 2

Ferret-UI 2是蘋果公司推出的多模態大型語言模型,用在理解和交互移動用戶界面。Ferret-UI 2能識別和理解各種移動設備屏幕上的UI元素,執行復雜的用戶指令,...
閱讀原文

MMBench-Video

MMBench-Video是新穎的長視頻多題問答基準測試,是浙江大學、上海人工智能實驗室、上海交通大學和香港中文大學聯合推出的。MMBench-Video能全面評估大型視覺...
閱讀原文

MiniMates

MiniMates是高性能的輕量級數字人驅動算法,具備語音和表情兩種驅動模式,能在普通電腦上實現實時運行。基于先進的技術架構,提供極致的速度體驗和個性化定制...
閱讀原文

MotionCLR

MotionCLR是基于注意力機制的人體動作生成和編輯模型,能根據文本提示生成動作,支持用戶進行交互式編輯,如動作強調、減弱、替換、擦除和風格轉移。MotionCL...
閱讀原文

DocMind

DocMind是司馬閱推出的文檔智能大模型,基于Transformer結構,融合深度學習、NLP和CV技術,能處理富文本文檔的復雜結構和視覺信息,提高信息抽取準確性。DocM...
閱讀原文

DistilQwen2

DistilQwen2是基于Qwen2大模型用知識蒸餾技術優化得到的輕量級語言模型,能提高運算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增強指令數據多樣性...
閱讀原文