InternVL3開源:7種尺寸覆蓋文、圖、視頻處理,多模態能力擴展至工業圖像分析
字節跳動AI編程助手,中文界面,代碼智能生成
字節跳動旗下AI編程工具悠碼(Yoma)
領先AI智能聚合平臺,助您高效辦公,事半功倍。
字節跳動推出免費AI編程IDE,協作提升效率,加速項目交付。
Gemini 2.5 是谷歌最智能的 AI 模型,具備推理能力。
Trae是字節跳動推出的國內首款AI原生IDE,集成Claude3.5與GPT-4o兩款頂尖AI模型,專為中文開發場景設計,將AI深度集成于IDE環境,帶來更流暢、準確的開發體驗。
一站式AI聚合平臺
Doubao-1.5-pro 是一個高性能的稀疏 MoE 大語言模型,專注于推理性能與模型能力的極致平衡。
一款支持多模態功能的全功能大語言模型安卓應用。
CUA 是一種能夠通過圖形界面與數字世界交互的通用接口。
OpenAI Agents SDK 是一個用于構建自主智能體的開發工具包,簡化多智能體工作流的編排。
OmniHuman-1 是一種基于單張人像和運動信號生成人類視頻的多模態框架。
CLaMP 3 是一個用于跨模態和跨語言音樂信息檢索的統一框架。
Kimi k1.5 是一個通過強化學習擴展的多模態語言模型,專注于提升推理和邏輯能力。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
DeepSeek 是一款先進的 AI 語言模型,擅長邏輯推理、數學和編程任務,提供免費使用。
VideoLLaMA3是前沿的多模態基礎模型,專注于圖像和視頻理解。
Janus-Pro-1B 是一個統一多模態理解和生成的自回歸框架。
Qwen2.5-VL 是一款強大的視覺語言模型,能夠理解圖像和視頻內容并生成相應文本。
UniTok是一個用于視覺生成和理解的統一視覺分詞器。
EgoLife是一個長期、多模態、多視角的日常生活AI助手項目,旨在推進長期上下文理解研究。
一個用于智能設備等的多模態原生代理框架。
SmolVLM-500M 是一個輕量級多模態模型,能夠處理圖像和文本輸入并生成文本輸出。
Phi-4-multimodal-instruct 是微軟開發的輕量級多模態基礎模型,支持文本、圖像和音頻輸入。
用于多模態上下文中的檢索增強生成的基準測試代碼庫。
Gemini 2.0 Flash Thinking Experimental 是一款增強推理模型,能夠展示其思考過程以提升性能和可解釋性。
SmolVLM-256M 是世界上最小的多模態模型,可高效處理圖像和文本輸入并生成文本輸出。
Janus-Pro-7B 是一個新型的自回歸框架,統一多模態理解和生成。
Magma-8B 是微軟推出的一款多模態 AI 模型,能夠處理圖像和文本輸入并生成文本輸出。
Gemini 2.0 Flash-Lite 是高效的語言模型,專為長文本處理和多種應用場景優化。
SmolVLM2 是一個專注于視頻內容分析和生成的輕量化語言模型。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙