AI項目和框架

MobileCLIP2

MobileCLIP2是蘋果公司研究人員推出的高效端側多模態模型,是MobileCLIP的升級版本。在多模態強化訓練方面進行了優化,通過在DFN數據集上訓練性能更優的CLIP...
閱讀原文

MAI-1-preview

MAI-1-preview 是微軟人工智能團隊推出的端到端訓練的基礎模型,為用戶提供遵循指令和回答日常查詢的能力。
閱讀原文

InternVL3.5

InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數的九種尺寸版...
閱讀原文

MAI-Voice-1

MAI-Voice-1 是微軟人工智能團隊推出的首個具有高度表現力和自然的語音生成模型。模型能在單個 GPU 上不到一秒鐘內生成一分鐘的音頻,是目前最高效的語音系統...
閱讀原文

Async

Async 是開源的開發者工具,為經驗豐富的開發者提供結合AI編碼、任務管理和代碼審查的統一工作流,通過 AI 技術幫助開發者提高工作效率。
閱讀原文

gpt-realtime

gpt-realtime 是 OpenAI 最新推出的先進語音模型,專為實際任務設計。模型能生成高質量、自然的語音,支持多種語言和語音風格,能理解非語言線索并根據場景調...
閱讀原文

OmniHuman-1.5

OmniHuman-1.5 字節推出的先進的AI模型,能從單張圖片和語音軌道生成富有表現力的數字人動畫。模型基于雙重系統認知理論,融合多模態大語言模型和擴散變換器...
閱讀原文

Meeseeks

Meeseeks 是美團 M17 團隊開源的大模型評測集,用在評估模型的指令遵循能力。Meeseeks通過三級評測框架,從宏觀到微觀全面衡量模型是否能嚴格按照用戶指令生...
閱讀原文

HunyuanVideo-Foley

HunyuanVideo-Foley是騰訊混元團隊開源的端到端視頻音效生成模型。模型能根據輸入的視頻和文字描述,生成與視頻畫面精準匹配的高質量音效,解決現有AI視頻生...
閱讀原文

問小白5

問小白5是問小白推出的“All in One”旗艦大模型,是國產大模型中智能水平最高的。模型在多項評測中表現優異,如AA-Index綜合評估指標得分64.7分,STEM能力評測...
閱讀原文

Grok Code Fast 1

Grok Code Fast 1 是 xAI 推出的 AI 編程模型,專為快速高效的基礎代碼任務設計。模型每秒可處理92個標記,擁有256k的上下文窗口,適合快速原型開發、代碼調...
閱讀原文

PixVerse V5

PixVerse V5是愛詩科技推出的自研AI視頻生成大模型,已在全球同步上線。PixVerse V5版本在動態效果、視覺質量、一致性保持和指令遵循等方面進行全面升級,能...
閱讀原文

FramePackLoop

FramePackLoop 是基于 FramePack 推出的無限循環視頻生成工具。工具通過創建主視頻和連接視頻,將視頻組合成循環視頻,適用視頻背景、圖標等場景。
閱讀原文

MiniCPM-V 4.5

MiniCPM-V 4.5是面壁智能推出的端側多模態模型,擁有8B參數。模型在圖片、視頻、OCR等多個領域表現卓越,尤其在高刷視頻理解方面取得突破,能處理高刷新率視...
閱讀原文

Waver 1.0

Waver 1.0 是字節跳動推出的新一代視頻生成模型,基于修正流 Transformer 架構,支持文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I)生成,可在單...
閱讀原文
1678910145