AI項目和框架

potpie.ai

potpie.ai 是開源平臺,基于AI技術為代碼庫創建定制化的工程代理(Agents)。potpie.ai基于構建代碼庫的知識圖譜,深度理解代碼組件之間的關系,實現自動化代...
閱讀原文

MoMask

MoMask是創新的3D人體動作生成工具,通過生成式掩碼建模技術,能根據文本描述生成高質量的3D人體動作。MoMask采用分層量化方案,將人體運動表示為多層離散的...
閱讀原文

UltraMem

UltraMem 是字節跳動豆包大模型團隊提出的全新超稀疏模型架構,解決傳統 MoE 架構在推理時的高額訪存問題。架構通過優化內存訪問和計算效率,顯著降低推理成...
閱讀原文

HumanDiT

HumanDiT 是浙江大學和字節跳動聯合提出的姿態引導的高保真人體視頻生成框架。基于擴散變換器(Diffusion Transformer,DiT),能在大規模數據集上訓練,生成...
閱讀原文

TPO

TPO(Test-Time Preference Optimization)是新型的AI優化框架,在推理階段對語言模型輸出進行動態優化,更符合人類偏好。TPO通過將獎勵信號轉化為文本反饋,...
閱讀原文

PDF to Podcast

PDF to Podcast是NVIDIA推出的PDF轉音頻的AI工具,基于NVIDIA NIM微服務架構的,能將PDF文檔轉換為生動的音頻內容,如播客。基于大型語言模型(LLM)、文本到...
閱讀原文

InternVideo2.5

InternVideo2.5是上海人工智能實驗室聯合南京大學、中科院深圳先進技術研究院共同開源的視頻多模態大模型。在視頻理解領域取得了顯著進展,特別是在長視頻處...
閱讀原文

YAYI-Ultra

YAYI-Ultra 是中科聞歌研發的企業級大語言模型的旗艦版本,具備強大的多領域專業能力和多模態內容生成能力。支持數學、代碼、金融、輿情、中醫、安全等多個領...
閱讀原文

HUGWBC

HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大學、上海AI Lab聯合推出的人形機器人全身控制器,能實現精細的運動控制。HUGWBC...
閱讀原文

VideoCaptioner

VideoCaptioner(中文名:卡卡字幕助手)是基于大語言模型(LLM)的智能字幕處理工具,能簡化視頻字幕的生成與優化流程。VideoCaptioner支持語音識別、字幕斷...
閱讀原文

Zonos-v0.1

Zonos-v0.1是Zyphra推出的高保真文本到語音(TTS)模型。Zonos-v0.1包含兩個模型:16億參數的Transformer模型和SSM混合模型,均在Apache 2.0許可下開源。Zono...
閱讀原文

InspireMusic

InspireMusic 是阿里巴巴通義實驗室開源的音樂生成技術,通過人工智能為用戶生成高質量的音樂作品。基于多模態大模型技術,支持通過簡單的文字描述或音頻提示...
閱讀原文

Goku

Goku是香港大學和字節跳動聯合發布的最新視頻生成模型,專為圖像和視頻的聯合生成設計。基于先進的rectified flow Transformer框架,支持文生視頻、圖生視頻...
閱讀原文

Satori

Satori 是 MIT、哈佛大學等機構研究者推出的 7B 參數的大型語言模型,專注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通過小規模的格式微調和大規模的增強...
閱讀原文

ACE++

ACE++是阿里巴巴通義實驗室推出的先進的圖像生成與編輯工具,通過指令化和上下文感知的內容填充技術,實現了高質量的圖像創作和編輯功能。
閱讀原文
17576777879155