AI項(xiàng)目和框架

MDM

Matryoshka Diffusion Models(MDM)是由蘋果公司研究人員推出的一種新型擴(kuò)散模型框架,旨在解決生成高分辨率圖像和視頻時(shí)面臨的計(jì)算和優(yōu)化挑戰(zhàn)。MDM基于在多...
閱讀原文

mPLUG-DocOwl 1.5

mPLUG-DocOwl 1.5是由阿里巴巴集團(tuán)推出的多模態(tài)大型語(yǔ)言模型,專注于OCR-free(無需光學(xué)字符識(shí)別)的文檔理解。模型基于統(tǒng)一結(jié)構(gòu)學(xué)習(xí),強(qiáng)化對(duì)文本豐富圖像如...
閱讀原文

Fluid

Fluid是由Google DeepMind和MIT共同推出的文本到圖像的自回歸生成模型,基于連續(xù)標(biāo)記和隨機(jī)生成順序的方法,在視覺質(zhì)量和評(píng)估性能上取得突破性進(jìn)展。模型在擴(kuò)...
閱讀原文

SaRA

SaRA是一種新型的預(yù)訓(xùn)練擴(kuò)散模型微調(diào)方法,由上海交通大學(xué)和騰訊優(yōu)圖實(shí)驗(yàn)室共同推出。基于重新激活預(yù)訓(xùn)練過程中看似無效的參數(shù),讓模型能適應(yīng)新任務(wù)。SaRA基...
閱讀原文

Quanta Quest

Quanta Quest是一款面向個(gè)人用戶的開源AI時(shí)代智能數(shù)據(jù)庫(kù)產(chǎn)品,基于將個(gè)人數(shù)據(jù)如Gmail、Dropbox、Notion等整合到一個(gè)平臺(tái)上,用RAG技術(shù)提供AI搜索功能,幫助用...
閱讀原文

BiGR

BiGR是一種新型的條件圖像生成模型,用緊湊的二進(jìn)制潛在代碼進(jìn)行生成訓(xùn)練,增強(qiáng)圖像的生成質(zhì)量和表示能力。作為首個(gè)在同一框架內(nèi)統(tǒng)一生成和判別任務(wù)的模型,B...
閱讀原文

MoE++

MoE++是一種新型的混合專家(Mixture-of-Experts)架構(gòu),由昆侖萬維2050研究院與北大袁粒團(tuán)隊(duì)聯(lián)合推出。基于引入零計(jì)算量專家,即零專家、復(fù)制專家和常數(shù)專家...
閱讀原文

Granite 3.0

Granite 3.0 是 IBM 推出的一系列先進(jìn)的AI模型,能在多個(gè)學(xué)術(shù)和企業(yè)基準(zhǔn)測(cè)試中展現(xiàn)出卓越的性能。模型設(shè)計(jì)用在企業(yè)級(jí)應(yīng)用,能執(zhí)行各種任務(wù),包括文本生成、分...
閱讀原文

Project Turntable

Project Turntable是Adobe在2024年MAX大會(huì)上推出的一款創(chuàng)新AI工具。工具能讓用戶像操作3D對(duì)象一樣旋轉(zhuǎn)2D矢量圖像,即時(shí)生成圖像所需的隱藏部分。用AI模型填充...
閱讀原文

OmniAI

OmniAI是一個(gè)強(qiáng)大的AI文檔處理平臺(tái),基于先進(jìn)的OCR技術(shù),支持對(duì)PDF、DOCX、圖片等多種文件格式進(jìn)行快速處理和數(shù)據(jù)提取。平臺(tái)支持用戶輕松創(chuàng)建文檔處理管道,...
閱讀原文

TaskWeaver

TaskWeaver是由微軟推出的一個(gè)代碼優(yōu)先的AI智能體框架,專注于無縫規(guī)劃和執(zhí)行數(shù)據(jù)分析任務(wù)。基于代碼片段解釋用戶請(qǐng)求,高效協(xié)調(diào)各種插件(以函數(shù)形式)執(zhí)行...
閱讀原文

Stable Diffusion 3.5

Stable Diffusion 3.5是Stability AI公司最新推出的一系列先進(jìn)的AI圖像生成模型,包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo和即將...
閱讀原文

Mochi 1

Mochi 1是Genmo公司推出的開源視頻生成模型,在動(dòng)作質(zhì)量和遵循用戶提示方面表現(xiàn)出色。Mochi 1基于Apache 2.0許可證發(fā)布,支持個(gè)人和商業(yè)用途的免費(fèi)使用。模型...
閱讀原文

Claude 3.5 Haiku

Claude 3.5 Haiku 是 Anthropic 公司推出的一款新型人工智能模型,保持與前代 Claude 3 Haiku 相近的速度和成本的同時(shí),實(shí)現(xiàn)了在各項(xiàng)能力上的提升,在多項(xiàng)基...
閱讀原文

PUMA

PUMA是一個(gè)先進(jìn)的多模態(tài)大型語(yǔ)言模型(MLLM),旨在基于集成多粒度視覺特征統(tǒng)一和增強(qiáng)視覺生成和理解任務(wù)。PUMA能處理從文本到圖像的生成、詳細(xì)的圖像編輯及...
閱讀原文