AI項目和框架

Lyria 2

Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音樂生成模型,作為 Vertex AI 平臺的核心組件,具備高保真音頻生成能力,能輸出 48kHz、24-bit 的專業(yè)級立體聲音...
閱讀原文

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 最新推出的圖像生成模型,是目前最快、最具控制性和最逼真的 Firefly 圖像模型,支持生成逼真的圖像,提供更高的分辨率(最...
閱讀原文

Step1X-Edit

Step1X-Edit 是階躍星辰團隊推出的通用圖像編輯框架,能縮小開源圖像編輯模型與閉源模型(如 GPT-4o 和 Gemini2 Flash)之間的性能差距。Step1X-Edit結(jié)合多模...

LiveCC

LiveCC 是新加坡國立大學(xué)Show Lab 團隊聯(lián)合字節(jié)跳動推出的實時視頻解說模型,基于自動語音識別(ASR)字幕進行大規(guī)模訓(xùn)練。LiveCC像專業(yè)解說員一樣快速分析視...
閱讀原文

OpenMath-Nemotron

OpenMath-Nemotron是英偉達推出的一系列開源數(shù)學(xué)推理模型,專門用在解決復(fù)雜數(shù)學(xué)問題,包括奧林匹克級別的難題。模型基于大規(guī)模數(shù)據(jù)集OpenMathReasoning進行...
閱讀原文

Kimi-Audio

Kimi-Audio 是 Moonshot AI 推出的開源音頻基礎(chǔ)模型,專注于音頻理解、生成和對話任務(wù)。在超過 1300 萬小時的多樣化音頻數(shù)據(jù)上進行預(yù)訓(xùn)練,具備強大的音頻推...
閱讀原文

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模態(tài)大模型。基于文心大模型4.5的基礎(chǔ)上進行優(yōu)化,具備多模態(tài)、強推理能力,能處理文本、圖像等多種輸入形...
閱讀原文

文心大模型X1 Turbo

文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升級版本,具備更先進的思維鏈和深度思考理能力,擅長文學(xué)創(chuàng)作、邏輯推理等,進一步...
閱讀原文

Hummingbird-0

Hummingbird-0 是 Tavus 推出的AI口型同步模型。基于 Phoenix-3 模型開發(fā),支持實現(xiàn)零樣本學(xué)習(xí),無需額外訓(xùn)練快速生成高精度的口型同步視頻。
閱讀原文

LongPort MCP

LongPort MCP(Model Context Protocol)是長橋集團推出的證券行業(yè)首個券商MCP。基于 LongPort MCP,AI 能快速調(diào)用證券行情數(shù)據(jù)、執(zhí)行股票交易、管理資產(chǎn)組合...
閱讀原文

Open Avatar Chat

Open Avatar Chat 是阿里開源的模塊化的實時數(shù)字人對話系統(tǒng),支持在單臺電腦上運行完整的功能。Open Avatar Chat 支持低延遲的實時對話(平均響應(yīng)延遲約2.2秒...

RAGEN

RAGEN是開源的強化學(xué)習(xí)框架,用于在交互式、隨機環(huán)境中訓(xùn)練大型語言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)...
閱讀原文

Cooragent

Cooragent是由清華大學(xué)LeapLab團隊推出的開源AI Agent協(xié)作框架。用戶基于簡單的一句話描述快速創(chuàng)建Agent,支持Agent之間的協(xié)作,完成復(fù)雜任務(wù)。Cooragent基于...
閱讀原文

DAM-3B

DAM-3B(Describe Anything 3B)是英偉達推出的多模態(tài)大語言模型,專為生成圖像和視頻中特定區(qū)域的詳細描述設(shè)計。模型通過點、邊界框、涂鴉或掩碼等方式指定...
閱讀原文

Skywork-R1V 2.0

Skywork-R1V 2.0 是昆侖萬維最新開源的多模態(tài)推理模型,專為復(fù)雜推理任務(wù)設(shè)計,具備強大的視覺與文本推理能力。模型基于混合強化學(xué)習(xí)和多模態(tài)獎勵模型(Skywo...
閱讀原文
13637383940146