AI項目和框架

ZipVoice

ZipVoice 是小米集團 AI 實驗室發(fā)布的高效零樣本語音合成(TTS)模型。模型基于 Flow Matching 架構(gòu),包含 ZipVoice(單說話人)和 ZipVoice-Dialog(對話語...
閱讀原文

PP-OCRv5

PP-OCRv5 是百度推出的高效、精準的文字識別模型。模型基于兩階段處理流程,專門用在快速、準確地檢測和識別圖像中的文字。
閱讀原文

Stable Audio 2.5

Stable Audio 2.5 是 Stability AI 推出的最新音頻生成模型,專為企業(yè)級聲音制作設(shè)計。模型具備快速生成(三分鐘音頻僅需兩秒)、動態(tài)音樂創(chuàng)作和音頻修復(fù)功能。
閱讀原文

Live Interpreter API

Live Interpreter API 是 Azure 語音翻譯的新功能,能實現(xiàn)實時的多語言語音翻譯。無需用戶手動設(shè)置輸入語言, Live Interpreter API 能自動連續(xù)識別正在使用...
閱讀原文

veCLI

veCLI 是字節(jié)跳動火山引擎推出的命令行 AI 工具,提升開發(fā)效率。無縫集成豆包大模型 1.6 等多種模型,開發(fā)者可通過自然語言交互,快速生成代碼并完成本地部署...
閱讀原文

MobileLLM-R1

MobileLLM-R1是Meta推出的一系列專為數(shù)學、編程和科學推理設(shè)計的高效推理模型。系列包含基礎(chǔ)模型和最終模型,分別有1.4億、3.6億和9.5億參數(shù)版本。模型并非通...
閱讀原文

AgentCLUE-ICabin

AgentCLUE-ICabin 是專注于汽車智能座艙場景的 AI 智能體測評基準,全面評估大語言模型在智能座艙中的工具調(diào)用能力。基準基于12大常見用車場景構(gòu)建,覆蓋從日...
閱讀原文

IndexTTS2

IndexTTS2是B站語音團隊開發(fā)的新型文本轉(zhuǎn)語音(TTS)模型,已經(jīng)正式開源。模型在情感表達和時長控制方面實現(xiàn)了重大突破,是首個支持精確時長控制的自回歸TTS...
閱讀原文

Stand-In

Stand-In 是騰訊微信視覺團隊推出的輕量級的視頻生成框架,專注于生成身份保護視頻。框架通過訓(xùn)練1%的基礎(chǔ)模型參數(shù),能生成高保真度、身份一致的視頻,且具有...
閱讀原文

ST-Raptor

ST-Raptor 是用在半結(jié)構(gòu)化表格問答的工具,僅需一個 Excel 格式的表格和一個自然語言問題作為輸入,能產(chǎn)生精確的答案。
閱讀原文

Strix

Strix 是開源的 AI 驅(qū)動安全測試工具,能幫助開發(fā)人員和安全團隊快速發(fā)現(xiàn)、驗證應(yīng)用程序中的漏洞。工具通過模擬真實黑客攻擊,動態(tài)運行代碼,減少誤報。
閱讀原文

HuMo

HuMo是清華大學和字節(jié)跳動智能創(chuàng)作實驗室共同提出的多模態(tài)視頻生成框架,專注于人類中心的視頻生成。能從文本、圖像和音頻等多種模態(tài)輸入中生成高質(zhì)量、精細...
閱讀原文

FireRedTTS-2

FireRedTTS-2 是先進的長格式流式文本轉(zhuǎn)語音(TTS)系統(tǒng),專注于多說話人對話生成。采用12.5Hz流式語音分詞器和雙Transformer架構(gòu),能實現(xiàn)低延遲、高保真、多...
閱讀原文

SRPO

SRPO(Semantic Relative Preference Optimization)是騰訊混元推出的文本到圖像生成模型,通過將獎勵信號設(shè)計為文本條件信號,實現(xiàn)對獎勵的在線調(diào)整,減少對...
閱讀原文

Qwen3-Next

Qwen3-Next是阿里通義開源的新一代混合架構(gòu)大模型,包含指令版(Qwen3-Next-80B-A3B-Instruct )和思維版(Qwen3-Next-80B-A3B-Thinking)兩個版本。
閱讀原文
11213141516155