AI項目和框架

Phi-4-Multimodal

Phi-4-Multimodal 是微軟最新推出的多模態語言模型,擁有 56 億參數,能將語音、視覺和文本處理集成到一個統一架構中。模型在多個基準測試中表現優異,在自動...
閱讀原文

R1-Onevision

R1-Onevision 是開源的多模態大語言模型,專注于復雜視覺推理任務。基于 Qwen2.5-VL 微調而成,通過整合視覺和文本數據,能精準地進行多模態信息解釋。在數學...
閱讀原文

Phi-4-Mini

Phi-4-Mini 是微軟 Phi-4 系列中最新推出的專注于文本任務的小型語言模型,參數量為 38 億?;诿芗慕獯a器-only Transformer 架構,結合分組查詢注意力(G...
閱讀原文

IndexTTS

IndexTTS 是 B 站推出的工業級可控文本轉語音(TTS)系統。基于 XTTS 和 Tortoise 模型開發,結合了 GPT 風格的生成技術,能將文本高效轉化為自然流暢的語音...
閱讀原文

VideoGrain

VideoGrain 是悉尼科技大學和浙江大學推出的零樣本多粒度視頻編輯框架,能實現類別級、實例級和部件級的精細視頻修改。VideoGrain基于調節時空交叉注意力和自...
閱讀原文

騰訊混元Turbo S

騰訊混元Turbo S是騰訊推出的新一代快思考模型。模型采用創新的Hybrid-Mamba-Transformer融合架構,有效降低了傳統Transformer的計算復雜度,減少了KV-Cache...
閱讀原文

DualPipe

DualPipe 是DeepSeek開源的創新的雙向流水線并行技術,主要用于提升大規模深度學習模型的訓練效率。核心思想是將模型的訓練過程分為兩個獨立的管道——前向計算...
閱讀原文

EPLB

EPLB(Expert Parallelism Load Balancer)是 DeepSeek 推出的專家并行負載均衡器,能解決大規模模型訓練中不同專家模型(Expert)負載不均的問題。EPLB 基于...
閱讀原文

OctoTools

OctoTools 是斯坦福大學推出的開源智能體框架,基于可擴展的工具解決復雜的推理任務。OctoTools用標準化的工具卡片(tool cards)封裝工具功能,無需額外訓練...
閱讀原文

Flame

Flame是開源的多模態AI模型,支持將UI設計截圖轉換為高質量的現代前端代碼。Flame基于視覺語言建模、自動化數據合成和結構化訓練流程,生成符合React等現代前...
閱讀原文

TinyR1-Preview

TinyR1-Preview是北京大學計算機學院與360公司聯合推出的32B參數量的推理模型。模型僅用5%的參數量,逼近Deepseek-R1-671B的性能,TinyR1-Preview在數學領域...
閱讀原文

SurveyX

SurveyX 是基于大型語言模型(LLMs)自動化生成學術綜述的系統,是中國人民大學、悉尼大學和中國東北大學聯合推出的。基于用戶提供論文標題和關鍵詞,快速生...
閱讀原文

Wan2.1

Wan2.1是阿里云開源的AI視頻生成大模型,具備強大的視覺生成能力。Wan2.1支持文生視頻和圖生視頻任務,包含兩種尺寸的模型,14B參數的專業版擅長復雜運動生成...
閱讀原文

AgentRefine

AgentRefine 是北京郵電大學和美團聯合提出的智能體合成框架,通過“精煉調整”(Refinement Tuning)提升基于大型語言模型(LLM)的智能體在多樣化任務中的泛...
閱讀原文

DeepGEMM

DeepGEMM是DeepSeek開源的為高效簡潔的FP8矩陣乘法(GEMM)設計的庫,目前僅支持NVIDIA Hopper張量核心。DeepGEMM支持普通和混合專家(MoE)分組的GEMM操作,...
閱讀原文
15859606162146