AI項目和框架

SongGen

SongGen是上海AI Lab、北京航空航天大學和香港中文大學推出的單階段自回歸Transformer模型,用在從文本生成歌曲。SongGen基于歌詞和描述性文本(如樂器、風格...
閱讀原文

CorrDiff

CorrDiff 是 NVIDIA 推出的生成式 AI 模型,用于將低分辨率的全球天氣數據下采樣為高分辨率數據,提高天氣預測的準確性和效率。采用兩步法處理數據:首先通過...
閱讀原文

Smallpond

Smallpond是DeepSeek推出的基于 DuckDB 和 3FS 構建的輕量級數據處理框架,專為高性能和大規模數據處理設計。Smallpond支持處理 PB 級數據集,借助 DuckDB 的...
閱讀原文

GPT-4.5

GPT-4.5 是 OpenAI 推出的最新大型語言模型,是目前規模最大、性能最強的聊天模型。基于擴展無監督學習,提升模式識別、知識廣度和創意生成能力,減少了幻覺...
閱讀原文

3FS

3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系統,專為AI訓練和推理任務設計。3FS用現代SSD和RDMA網絡技術,基于分離式架構聚合數千個SS...
閱讀原文

Profiling Data

PProfiling Data是DeepSeek開源的訓練和推理框架的性能分析數據,基于PyTorch Profiler捕獲的程序運行過程中的詳細信息,用在分析和優化軟件性能。
閱讀原文

Phi-4-Multimodal

Phi-4-Multimodal 是微軟最新推出的多模態語言模型,擁有 56 億參數,能將語音、視覺和文本處理集成到一個統一架構中。模型在多個基準測試中表現優異,在自動...
閱讀原文

R1-Onevision

R1-Onevision 是開源的多模態大語言模型,專注于復雜視覺推理任務。基于 Qwen2.5-VL 微調而成,通過整合視覺和文本數據,能精準地進行多模態信息解釋。在數學...
閱讀原文

Phi-4-Mini

Phi-4-Mini 是微軟 Phi-4 系列中最新推出的專注于文本任務的小型語言模型,參數量為 38 億。基于密集的解碼器-only Transformer 架構,結合分組查詢注意力(G...
閱讀原文

IndexTTS

IndexTTS 是 B 站推出的工業級可控文本轉語音(TTS)系統。基于 XTTS 和 Tortoise 模型開發,結合了 GPT 風格的生成技術,能將文本高效轉化為自然流暢的語音...
閱讀原文

VideoGrain

VideoGrain 是悉尼科技大學和浙江大學推出的零樣本多粒度視頻編輯框架,能實現類別級、實例級和部件級的精細視頻修改。VideoGrain基于調節時空交叉注意力和自...
閱讀原文

騰訊混元Turbo S

騰訊混元Turbo S是騰訊推出的新一代快思考模型。模型采用創新的Hybrid-Mamba-Transformer融合架構,有效降低了傳統Transformer的計算復雜度,減少了KV-Cache...
閱讀原文

DualPipe

DualPipe 是DeepSeek開源的創新的雙向流水線并行技術,主要用于提升大規模深度學習模型的訓練效率。核心思想是將模型的訓練過程分為兩個獨立的管道——前向計算...
閱讀原文

EPLB

EPLB(Expert Parallelism Load Balancer)是 DeepSeek 推出的專家并行負載均衡器,能解決大規模模型訓練中不同專家模型(Expert)負載不均的問題。EPLB 基于...
閱讀原文

OctoTools

OctoTools 是斯坦福大學推出的開源智能體框架,基于可擴展的工具解決復雜的推理任務。OctoTools用標準化的工具卡片(tool cards)封裝工具功能,無需額外訓練...
閱讀原文
16768697071155