AI項目和框架

CogView-3-Plus

CogView-3-Plus是智譜AI最新推出的AI文生圖模型,采用Transformer架構替代傳統UNet,優化了擴散模型的噪聲規劃。CogView-3-Plus在圖像生成方面表現出色,能根...
閱讀原文

GLM-4V-Plus

GLM-4V-Plus是智譜AI最新推出的多模態AI模型,專注于圖像和視頻理解。GLM-4V-Plus不僅能夠精確分析靜態圖像,還具備動態視頻內容的時間感知和理解能力,能捕...
閱讀原文

Qwen2-VL

Qwen2-VL是阿里巴巴達摩院開源的視覺多模態AI模型,具備高級圖像和視頻理解能力。Qwen2-VL支持多種語言,能處理不同分辨率和長寬比的圖片,實時分析動態視頻...
閱讀原文

auto-video-generator

auto-video-generator是AI自動解說視頻生成器,能實現一鍵生成解說視頻。用戶只需輸入主題,系統便自動撰寫腳本、合成語音、生成圖片并合成視頻,極大提升內...
閱讀原文

VFusion3D

VFusion3D 是由 Meta 和牛津大學的研究人員共同推出的AI生成3D模型項目,能從單張圖片或文本描述中生成高質量的3D對象。VFusion3D 通過微調預訓練的視頻 AI ...
閱讀原文

edge-tts

edge-tts是開源的AI文字轉語音項目,支持超過40種語言和300多種聲音。edge-tts利用微軟Azure Cognitive Services的強大功能,能將文本信息轉換成流暢自然的語...
閱讀原文

LM Studio

LM Studio 是一個本地大語言模型 (LLM) 應用平臺,開源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等,LM Studio 提供了一個圖形用戶界面...
閱讀原文

Video-LLaVA2

Video-LLaVA2是由北京大學ChatLaw課題組研發的開源多模態智能理解系統,通過創新的時空卷積(STC)連接器和音頻分支,提升了視頻和音頻理解能力。模型在視頻...
閱讀原文

MUMU

MUMU是一種多模態圖像生成模型,通過結合文本提示和參考圖像來生成目標圖像,從而提高生成的準確率和質量。MUMU模型的架構基于SDXL的預訓練卷積UNet,采用了...
閱讀原文

LLaVA-OneVision

LLaVA-OneVision是字節跳動推出開源的多模態AI模型,LLaVA-OneVision通過整合數據、模型和視覺表示的見解,能同時處理單圖像、多圖像和視頻場景下的計算機視...
閱讀原文

HMoE

HMoE(混合異構專家模型)是騰訊混元團隊提出的新型神經網絡架構,旨在提升大型語言模型的性能和計算效率。通過引入不同尺寸的專家來處理不同復雜性的輸入數...
閱讀原文

CustomCrafter

CustomCrafter 是騰訊和浙江大學聯合提出的自定義視頻生成框架,能基于文本提示和參考圖像生成高質量的個性化視頻,同時保留了運動生成和概念組合的能力。Cus...
閱讀原文

LitServe

LitServe是基于FastAPI的高性能AI模型部署引擎,專為企業級AI服務設計。支持批處理、流式處理和GPU自動擴展,簡化了模型部署流程。
閱讀原文

LongVILA

LongVILA是一個面向長視頻理解的視覺語言AI模型,由英偉達、MIT、UC 伯克利、得克薩斯大學奧斯汀分校共同開發。通過算法和系統的共同設計,實現了在大量GPU上...
閱讀原文

LeRobot

LeRobot是由HuggingFace推出的開源AI聊天機器人項目,由前特斯拉研究員Remi Cadene領導開發。LeRobot致力于降低機器人技術的入門門檻,提供預訓練模型、數據...
閱讀原文