AI項目和框架
OpenAI o3:OpenAI推出超強推理模型,智能提升與創新思維的完美結合
OpenAI o3模型是繼o1之后的新一代推理模型,包括o3和o3-mini兩個版本。o3在某些條件下接近于通用人工智能(AGI),在ARC-AGI基準測試中得分高達87.5%,遠超人...
AniDoc:自動化草圖到彩色動畫轉化的創新視頻擴散模型
AniDoc是香港科技大學、螞蟻集團、南京大學、浙江大學和香港大學共同推出的簡化2D動畫上色AI模型,基于視頻擴散模型自動將草圖序列轉換成彩色動畫,遵循參考...
ElevenLabs Flash:創新低延遲語音合成模型提升語音交互體驗
ElevenLabs Flash是ElevenLabs推出的低延遲語音合成模型,專為快速對話型AI設計。ElevenLabs Flash有兩個版本:Flash v2僅支持英語,Flash v2.5支持32種語言...
Gemini 2.0 Flash Thinking:探索谷歌最新實驗性推理模型的核心特性與應用潛力
Gemini 2.0 Flash Thinking是谷歌推出的實驗性AI模型,能快速思考和解決問題。Gemini 2.0 Flash Thinking展示詳細的思考過程,與OpenAI的o1模型不同,Gemini ...
Genesis:開源生成式物理引擎助力創新模擬與實時交互體驗
Genesis是卡內基梅隆大學、馬里蘭大學、斯坦福大學、麻省理工學院等研究機構聯合推出的開源生成式物理引擎,能模擬世界萬物。Genesis能用簡單的語言描述,快...
UniReal:港大攜手Adobe推出創新圖像生成與編輯框架提升創作效率與靈活性
UniReal是什么 UniReal是香港大學和Adobe研究院共同推出的框架,專注于實現多種圖像生成和編輯任務。框架基于模擬現實世界動態,能在單一模型中處理包括圖像...
X-AnyLabeling:多樣化圖像與視頻標注樣式的智能AI工具
X-AnyLabeling是集成多種深度學習算法的圖像標注軟件,專注于提升標注效率和精度。X-AnyLabeling支持圖像和視頻的多樣化標注樣式,適配多種AI訓練場景,提供...
AI 3D世界生成模型,文本圖像秒變3D渲染場景
Explorer是Odyssey公司推出的生成性世界模型,能將任何圖像轉化為詳細的3D世界。Explorer模型擅長生成真實感世界,且支持動態效果的生成。Explorer基于高斯濺...
EMMA-X:具身多模態動作模型推動人機交互的革新與應用
EMMA-X是新加坡科技設計大學推出的具有70億參數的具身多模態動作模型,在有根據的鏈式思維(CoT)推理數據上微調OpenVLA創建。EMMA-X結合層次化的具身數據集...
WeaveFox:螞蟻團隊出品,根據設計圖直接生成源代碼
WeaveFox是螞蟻團隊推出的AI驅動前端智能研發平臺,基于螞蟻自研的百靈多模態大模型,能直接根據設計圖生成前端源代碼。工具支持多種應用類型,包括控制臺、...
微軟開源的多功能、多格式文檔轉Markdown工具
MarkItDown是微軟開源的多功能文檔處理工具,能將PDF、PPT、Word、Excel、圖像、音頻、HTML等多種格式的文件轉換成Markdown格式。支持OCR文字識別、語音轉文...
豆包推出視覺理解模型,具備識別和推理能力
豆包視覺理解模型是豆包推出的先進AI大模型,具備視覺識別和理解推理能力。豆包視覺理解模型能識別圖像中物體的類別、形狀、紋理等,還能理解物體間的關系和...
豆包推出3D生成模型,自然語言交互實時生成3D場景圖
豆包3D生成模型是豆包推出的3D生成模型,屬于豆包大模型家族。模型基于3D-DiT 架構,能生成高質量 3D 模塊。與火山引擎數字孿生平臺 veOmniverse 結合使用,...
MV-Adapter:多視圖一致圖像生成模型的創新應用與技術優勢
MV-Adapter是多視圖一致圖像生成模型,是北京航空航天大學、VAST和上海交通大學的研究團隊推出的。MV-Adapter能將預訓練的文本到圖像擴散模型轉化為多視圖圖...