AI項目和框架

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 構建的開源項目,用在開發(fā)與 WhatsApp 用戶互動的 AI Agent。項目支持多代理架構和圖譜處理,能處理文...
閱讀原文

WebSSL

WebSSL(Web-scale Self-Supervised Learning)是Meta、紐約大學等機構推出的視覺自監(jiān)督學習(SSL)系列模型,基于大規(guī)模網(wǎng)絡數(shù)據(jù)(如數(shù)十億圖像)訓練視覺模...
閱讀原文

Paper2Code

Paper2Code 是韓國科學技術院和DeepAuto.ai聯(lián)合推出的多 Agent 大語言模型(LLM)框架,支持將機器學習領域的科學論文自動轉換為可運行的代碼倉庫。
閱讀原文

EmaFusion

EmaFusion 是人工智能初創(chuàng)公司 Ema 推出的多模型融合技術,為企業(yè)級 AI 應用提供高效、靈活且低成本的解決方案。通過動態(tài)結合 100 多種語言模型,根據(jù)任務需...
閱讀原文

Lyria 2

Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音樂生成模型,作為 Vertex AI 平臺的核心組件,具備高保真音頻生成能力,能輸出 48kHz、24-bit 的專業(yè)級立體聲音...
閱讀原文

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 最新推出的圖像生成模型,是目前最快、最具控制性和最逼真的 Firefly 圖像模型,支持生成逼真的圖像,提供更高的分辨率(最...
閱讀原文

Step1X-Edit

Step1X-Edit 是階躍星辰團隊推出的通用圖像編輯框架,能縮小開源圖像編輯模型與閉源模型(如 GPT-4o 和 Gemini2 Flash)之間的性能差距。Step1X-Edit結合多模...

LiveCC

LiveCC 是新加坡國立大學Show Lab 團隊聯(lián)合字節(jié)跳動推出的實時視頻解說模型,基于自動語音識別(ASR)字幕進行大規(guī)模訓練。LiveCC像專業(yè)解說員一樣快速分析視...
閱讀原文

OpenMath-Nemotron

OpenMath-Nemotron是英偉達推出的一系列開源數(shù)學推理模型,專門用在解決復雜數(shù)學問題,包括奧林匹克級別的難題。模型基于大規(guī)模數(shù)據(jù)集OpenMathReasoning進行...
閱讀原文

Kimi-Audio

Kimi-Audio 是 Moonshot AI 推出的開源音頻基礎模型,專注于音頻理解、生成和對話任務。在超過 1300 萬小時的多樣化音頻數(shù)據(jù)上進行預訓練,具備強大的音頻推...
閱讀原文

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模態(tài)大模型。基于文心大模型4.5的基礎上進行優(yōu)化,具備多模態(tài)、強推理能力,能處理文本、圖像等多種輸入形...
閱讀原文

文心大模型X1 Turbo

文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升級版本,具備更先進的思維鏈和深度思考理能力,擅長文學創(chuàng)作、邏輯推理等,進一步...
閱讀原文

Hummingbird-0

Hummingbird-0 是 Tavus 推出的AI口型同步模型。基于 Phoenix-3 模型開發(fā),支持實現(xiàn)零樣本學習,無需額外訓練快速生成高精度的口型同步視頻。
閱讀原文

LongPort MCP

LongPort MCP(Model Context Protocol)是長橋集團推出的證券行業(yè)首個券商MCP。基于 LongPort MCP,AI 能快速調用證券行情數(shù)據(jù)、執(zhí)行股票交易、管理資產組合...
閱讀原文

Open Avatar Chat

Open Avatar Chat 是阿里開源的模塊化的實時數(shù)字人對話系統(tǒng),支持在單臺電腦上運行完整的功能。Open Avatar Chat 支持低延遲的實時對話(平均響應延遲約2.2秒...
17891011117