AI項(xiàng)目和框架
Gemini 2.0 Flash Thinking:探索谷歌最新實(shí)驗(yàn)性推理模型的核心特性與應(yīng)用潛力
Gemini 2.0 Flash Thinking是谷歌推出的實(shí)驗(yàn)性AI模型,能快速思考和解決問(wèn)題。Gemini 2.0 Flash Thinking展示詳細(xì)的思考過(guò)程,與OpenAI的o1模型不同,Gemini ...
Genesis:開源生成式物理引擎助力創(chuàng)新模擬與實(shí)時(shí)交互體驗(yàn)
Genesis是卡內(nèi)基梅隆大學(xué)、馬里蘭大學(xué)、斯坦福大學(xué)、麻省理工學(xué)院等研究機(jī)構(gòu)聯(lián)合推出的開源生成式物理引擎,能模擬世界萬(wàn)物。Genesis能用簡(jiǎn)單的語(yǔ)言描述,快...
UniReal:港大攜手Adobe推出創(chuàng)新圖像生成與編輯框架提升創(chuàng)作效率與靈活性
UniReal是什么 UniReal是香港大學(xué)和Adobe研究院共同推出的框架,專注于實(shí)現(xiàn)多種圖像生成和編輯任務(wù)。框架基于模擬現(xiàn)實(shí)世界動(dòng)態(tài),能在單一模型中處理包括圖像...
X-AnyLabeling:多樣化圖像與視頻標(biāo)注樣式的智能AI工具
X-AnyLabeling是集成多種深度學(xué)習(xí)算法的圖像標(biāo)注軟件,專注于提升標(biāo)注效率和精度。X-AnyLabeling支持圖像和視頻的多樣化標(biāo)注樣式,適配多種AI訓(xùn)練場(chǎng)景,提供...
AI 3D世界生成模型,文本圖像秒變3D渲染場(chǎng)景
Explorer是Odyssey公司推出的生成性世界模型,能將任何圖像轉(zhuǎn)化為詳細(xì)的3D世界。Explorer模型擅長(zhǎng)生成真實(shí)感世界,且支持動(dòng)態(tài)效果的生成。Explorer基于高斯濺...
EMMA-X:具身多模態(tài)動(dòng)作模型推動(dòng)人機(jī)交互的革新與應(yīng)用
EMMA-X是新加坡科技設(shè)計(jì)大學(xué)推出的具有70億參數(shù)的具身多模態(tài)動(dòng)作模型,在有根據(jù)的鏈?zhǔn)剿季S(CoT)推理數(shù)據(jù)上微調(diào)OpenVLA創(chuàng)建。EMMA-X結(jié)合層次化的具身數(shù)據(jù)集...
WeaveFox:螞蟻團(tuán)隊(duì)出品,根據(jù)設(shè)計(jì)圖直接生成源代碼
WeaveFox是螞蟻團(tuán)隊(duì)推出的AI驅(qū)動(dòng)前端智能研發(fā)平臺(tái),基于螞蟻?zhàn)匝械陌凫`多模態(tài)大模型,能直接根據(jù)設(shè)計(jì)圖生成前端源代碼。工具支持多種應(yīng)用類型,包括控制臺(tái)、...
微軟開源的多功能、多格式文檔轉(zhuǎn)Markdown工具
MarkItDown是微軟開源的多功能文檔處理工具,能將PDF、PPT、Word、Excel、圖像、音頻、HTML等多種格式的文件轉(zhuǎn)換成Markdown格式。支持OCR文字識(shí)別、語(yǔ)音轉(zhuǎn)文...
豆包推出視覺理解模型,具備識(shí)別和推理能力
豆包視覺理解模型是豆包推出的先進(jìn)AI大模型,具備視覺識(shí)別和理解推理能力。豆包視覺理解模型能識(shí)別圖像中物體的類別、形狀、紋理等,還能理解物體間的關(guān)系和...
豆包推出3D生成模型,自然語(yǔ)言交互實(shí)時(shí)生成3D場(chǎng)景圖
豆包3D生成模型是豆包推出的3D生成模型,屬于豆包大模型家族。模型基于3D-DiT 架構(gòu),能生成高質(zhì)量 3D 模塊。與火山引擎數(shù)字孿生平臺(tái) veOmniverse 結(jié)合使用,...
MV-Adapter:多視圖一致圖像生成模型的創(chuàng)新應(yīng)用與技術(shù)優(yōu)勢(shì)
MV-Adapter是多視圖一致圖像生成模型,是北京航空航天大學(xué)、VAST和上海交通大學(xué)的研究團(tuán)隊(duì)推出的。MV-Adapter能將預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型轉(zhuǎn)化為多視圖圖...
谷歌推出的評(píng)估大模型能力的基準(zhǔn)測(cè)試
FACTS Grounding是谷歌DeepMind推出的評(píng)估大型語(yǔ)言模型(LLMs)能力的基準(zhǔn)測(cè)試,衡量模型根據(jù)給定上下文生成事實(shí)準(zhǔn)確且無(wú)捏造信息的文本的能力。FACTS Ground...
開源漫畫圖片文字翻譯工具,多語(yǔ)言翻譯無(wú)縫嵌入原圖
Manga Image Translator是開源的漫畫圖片文字翻譯工具,能一鍵翻譯漫畫和圖片中的文字。Manga Image Translator基于OCR技術(shù)識(shí)別文本,結(jié)合機(jī)器翻譯將文字轉(zhuǎn)換...
AI Safeguard聯(lián)合卡內(nèi)基梅隆和斯坦福開源的輕量級(jí)多模態(tài)模型
Ivy-VL是AI Safeguard聯(lián)合卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)推出的輕量級(jí)多模態(tài)AI模型,專為移動(dòng)端和邊緣設(shè)備設(shè)計(jì)。模型擁有3B參數(shù)量,相較于其他多模態(tài)大模型,顯...
粵公網(wǎng)安備 44011502001135號(hào)