AI項目和框架

FluxMusic

FluxMusic 是一個開源的音樂生成模型,基于擴散模型和 Transformer 架構將文本描述轉換成音樂。模型能處理復雜的文本指令,生成具有特定情感、風格和樂器的音...
閱讀原文

LightEval

LightEval是Hugging Face推出的一款輕量級AI評估工具,專門用于評估大型語言模型(LLMs)。LightEval支持多任務處理和復雜模型配置,能在多種硬件上運行,包...
閱讀原文

RegionDrag

RegionDrag是由香港大學和牛津大學聯合開發的一種基于區域的圖像編輯技術。基于擴散模型,讓用戶定義手柄區域和目標區域來表達編輯意圖,實現快速且精確的圖...
閱讀原文

LinFusion

LinFusion 是新加坡國立大學研究團隊開發的一種創新圖像生成模型,基于線性注意力機制來處理高分辨率圖像生成任務。使模型在處理大量像素時的計算復雜度保持...
閱讀原文

Deepfake Defenders

Deepfake Defenders是由中國科學院自動化研究所的團隊VisionRush開發的一款開源AI模型,旨在識別和防御Deepfake技術生成的偽造圖像和視頻。模型通過分析媒體...
閱讀原文

藍心大模型

藍心大模型是vivo發布的全新自研通用大模型矩陣,包括語言大模型、端側大模型、語音大模型、圖像大模型以及多模態大模型。在多個領域和場景中發揮著重要作用...
閱讀原文

VideoLLaMB

VideoLLaMB 是一種創新的長視頻理解框架,通過引入記憶橋接層和遞歸記憶令牌來處理視頻數據,確保在分析時不丟失關鍵視覺信息。模型特別設計用于理解長時間視...
閱讀原文

MagicMan

MagicMan 是清華大學深圳國際研究生院、騰訊AI實驗室、香港科技大學、斯坦福大學和香港中文大學的研究團隊共同推出的AI項目,專注于基于深度學習技術從單張2D...
閱讀原文

DeepSeek-Coder-V2

DeepSeek-Coder-V2 是由DeepSeek推出的開源代碼語言模型,在代碼特定任務中的表現與 GPT4-Turbo 相媲美。模型在 DeepSeek-V2 的基礎上,額外預訓練了 6 萬億...
閱讀原文

AppFlowy

AppFlowy 是一個開源的筆記和任務管理工具,被設計為 Notion 的替代品,提供了更好的隱私保護。使用 Rust 和 Flutter 構建,遵循極簡原則,提供了足夠的調整...
閱讀原文

豐語大模型

豐語大模型是順豐科技推出的物流行業專用大語言模型。順豐科技表示,豐語大模型以更小的尺寸模型對更大尺寸通用模型在物流垂域的全面超越。豐語大模型已在市...
閱讀原文

SAM2Point

SAM2Point是基于SAM2的3D分割技術,無需額外訓練或 2D-3D 投影,直接對任意3D數據進行零樣本分割。通過將3D數據體素化,模擬為多方向視頻流,基于SAM2實現精...
閱讀原文

CodeFuse-muAgent

CodeFuse-muAgent 是螞蟻集團 CodeFuse 團隊開發的多智能體框架,基于知識圖譜引擎來驅動智能體的編排和協作。簡化智能體的標準操作程序編排流程。通過集成工...
閱讀原文

VoxInstruct

VoxInstruct 是由清華大學開源的語音合成技術,能根據人類語言指令生成高度符合用戶需求的語音。系統采用統一的多語言編解碼器語言建模框架,將傳統的文本到...
閱讀原文

Pixtral 12B

Pixtral 12B 是法國AI初創公司Mistral推出的首款多模態AI模型,能同時處理圖像和文本。模型擁有 120 億參數,模型大小約為 24GB,基于文本模型 Nemo 12B構建...
閱讀原文