標簽:自然語言處理

可靈2.0

可靈2.0是快手推出的新一代 AI 視頻生成模型,現已上線可靈AI視頻平臺。平臺更新包含可靈2.0(大師版)和可圖2.0兩大基礎模型。可圖2.0大幅提升圖片生成質量...
閱讀原文

Agent Development Kit

Agent Development Kit(ADK)是谷歌開源的首個AI智能體開發工具包,是一個代碼優先的Python工具包,簡化復雜AI代理的構建、評估和部署過程。ADK支持多智能體...
閱讀原文

Skywork-OR1

Skywork-OR1(Open Reasoner 1)是昆侖萬維推出的開源高性能推理模型系列,模型突破大模型在邏輯推理和復雜任務求解方面的能力瓶頸。Skywork-OR1包含三款模型,...
閱讀原文

UNO

UNO是字節跳動推出創新的AI圖像生成框架,突破傳統模型在多主體生成中的局限。通過“少到多”的泛化方法,能高質量地生成單主體和多主體圖像,解決了多主體場景...
閱讀原文

Pika Twists

Pika Twists 是 Pika Labs 推出的 AI 視頻編輯功能,能讓用戶輕松修改視頻中的主體動作和場景,創造出奇幻效果。只需上傳視頻并描述需求,AI 可精準操控角色...
閱讀原文

Multi-SWE-bench

Multi-SWE-bench 是字節跳動豆包大模型團隊開源的首個多語言代碼修復基準。在SWE-bench基礎上,首次覆蓋Python之外的7種主流編程語言,包括Java、TypeScript...
閱讀原文

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高效、低延遲的 AI 模型,基于 Gemini 2.5 模型構建。Gemini 2.5 Flash在保持低延遲和成本效益的同時,引入思考能力。
閱讀原文

A2A

A2A(Agent2Agent)是谷歌開源的首個標準智能體交互協議,讓不同框架和供應商構建的AI智能體相互協作。A2A基于標準化的通信方式,打破系統孤島,讓智能體安全...
閱讀原文

Llama Nemotron

Llama Nemotron是NVIDIA推出的一系列推理模型,專注于推理和多種智能代理(agentic AI)任務。模型基于Llama開源模型,經過NVIDIA的后訓練,加入推理能力,在...
閱讀原文

DeepCoder-14B-Preview

DeepCoder-14B-Preview 是 Agentica 和 Together AI 聯合開源的大型代碼生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 微調而成。DeepCoder-14B-Preview基...
閱讀原文

Step-R1-V-Mini

Step-R1-V-Mini 是階躍星辰最新推出的多模態推理模型。支持圖文輸入和文字輸出,具備良好的指令遵循和通用能力,能高精度感知圖像完成復雜推理任務。模型在視...
閱讀原文

口語精靈

口語精靈是AI口語學習軟件,通過先進的人工智能技術和真人語音模擬,為用戶提供1V1的對話練習體驗。用戶可以隨時隨地與AI老師互動,跨越國界,學習不同地區的...
閱讀原文

ACTalker

ACTalker 是用于生成逼真說話人頭部視頻的端到端視頻擴散框架。支持單信號或多信號控制,如音頻、表情等。核心架構包括并行 Mamba 結構,通過多個分支利用不...
閱讀原文

Quasar Alpha

Quasar Alpha 是 OpenRouter 發布的預發布版 AI 模型。擁有 100 萬 token 的超大上下文窗口,可處理超長文本和復雜文檔。代碼生成能力出色,生成速度快,延遲...
閱讀原文

OmniTalker

OmniTalker 是阿里巴巴發布的實時文本驅動的說話頭像生成技術,能同時處理文本、圖像、音頻和視頻等多種模態輸入,以流式方式生成自然語音響應。核心架構為 T...
191011121368