AI項目和框架

GameNGen

GameNGen是谷歌推出的首個AI游戲引擎，能以每秒20幀的速度實時生成逼真的DOOM游戲畫面，甚至讓60%的玩家無法區分真假。GameNGen預示著游戲開發可能不再需要傳...

閱讀原文

AI工具

1年前 (2024)

GLM-4-Plus

GLM-4-Plus是智譜AI最新推出的高智能旗艦大模型，在語言理解和長文本處理上取得突破，采用創新技術如PPO，顯著提升推理和指令遵循能力。GLM-4-Plus在多個關鍵...

閱讀原文

AI工具

1年前 (2024)

CogView-3-Plus

CogView-3-Plus是智譜AI最新推出的AI文生圖模型，采用Transformer架構替代傳統UNet，優化了擴散模型的噪聲規劃。CogView-3-Plus在圖像生成方面表現出色，能根...

閱讀原文

AI工具

1年前 (2024)

GLM-4V-Plus

GLM-4V-Plus是智譜AI最新推出的多模態AI模型，專注于圖像和視頻理解。GLM-4V-Plus不僅能夠精確分析靜態圖像，還具備動態視頻內容的時間感知和理解能力，能捕...

閱讀原文

AI工具

1年前 (2024)

Qwen2-VL

Qwen2-VL是阿里巴巴達摩院開源的視覺多模態AI模型，具備高級圖像和視頻理解能力。Qwen2-VL支持多種語言，能處理不同分辨率和長寬比的圖片，實時分析動態視頻...

閱讀原文

AI工具

1年前 (2024)

auto-video-generator

auto-video-generator是AI自動解說視頻生成器，能實現一鍵生成解說視頻。用戶只需輸入主題，系統便自動撰寫腳本、合成語音、生成圖片并合成視頻，極大提升內...

閱讀原文

AI工具

1年前 (2024)

VFusion3D

VFusion3D 是由 Meta 和牛津大學的研究人員共同推出的AI生成3D模型項目，能從單張圖片或文本描述中生成高質量的3D對象。VFusion3D 通過微調預訓練的視頻 AI ...

閱讀原文

AI工具

1年前 (2024)

edge-tts

edge-tts是開源的AI文字轉語音項目，支持超過40種語言和300多種聲音。edge-tts利用微軟Azure Cognitive Services的強大功能，能將文本信息轉換成流暢自然的語...

閱讀原文

AI工具

1年前 (2024)

LM Studio

LM Studio 是一個本地大語言模型 (LLM) 應用平臺，開源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等，LM Studio 提供了一個圖形用戶界面...

閱讀原文

AI工具

1年前 (2024)

Video-LLaVA2

Video-LLaVA2是由北京大學ChatLaw課題組研發的開源多模態智能理解系統，通過創新的時空卷積（STC）連接器和音頻分支，提升了視頻和音頻理解能力。模型在視頻...

閱讀原文

AI工具

1年前 (2024)

MUMU

MUMU是一種多模態圖像生成模型，通過結合文本提示和參考圖像來生成目標圖像，從而提高生成的準確率和質量。MUMU模型的架構基于SDXL的預訓練卷積UNet，采用了...

閱讀原文

AI工具

1年前 (2024)

LLaVA-OneVision

LLaVA-OneVision是字節跳動推出開源的多模態AI模型，LLaVA-OneVision通過整合數據、模型和視覺表示的見解，能同時處理單圖像、多圖像和視頻場景下的計算機視...

閱讀原文

AI工具

1年前 (2024)

HMoE

HMoE（混合異構專家模型）是騰訊混元團隊提出的新型神經網絡架構，旨在提升大型語言模型的性能和計算效率。通過引入不同尺寸的專家來處理不同復雜性的輸入數...

閱讀原文

AI工具

1年前 (2024)

CustomCrafter

CustomCrafter 是騰訊和浙江大學聯合提出的自定義視頻生成框架，能基于文本提示和參考圖像生成高質量的個性化視頻，同時保留了運動生成和概念組合的能力。Cus...

閱讀原文

AI工具

1年前 (2024)

LitServe

LitServe是基于FastAPI的高性能AI模型部署引擎，專為企業級AI服務設計。支持批處理、流式處理和GPU自動擴展，簡化了模型部署流程。

閱讀原文

AI工具

1年前 (2024)

1…128 129130131 132…155