AI項(xiàng)目和框架

Vision Parse

Vision Parse是開源的PDF文檔轉(zhuǎn)換工具，基于視覺語言模型（Vision LLMs）將PDF文件轉(zhuǎn)換成Markdown格式。Vision Parse能智能識(shí)別和提取PDF中的文本和表格，且...

閱讀原文

AI工具

11個(gè)月前

The Language of Motion

The Language of Motion是斯坦福大學(xué)李飛飛團(tuán)隊(duì)推出的多模態(tài)語言模型，能整合人類動(dòng)作中的言語和非言語語言。模型能處理文本、語音和動(dòng)作數(shù)據(jù)，生成對(duì)應(yīng)的目...

閱讀原文

AI工具

11個(gè)月前

Mathtutor on Groq

Mathtutor on Groq 是基于 Groq 架構(gòu)的AI數(shù)學(xué)輔導(dǎo)工具，基于語音識(shí)別功能，支持用戶用語音形式提出數(shù)學(xué)問題。工具內(nèi)置強(qiáng)大的數(shù)學(xué)引擎，能實(shí)時(shí)計(jì)算并用 LaTeX ...

閱讀原文

AI工具

11個(gè)月前

啟元重癥大模型

啟元重癥大模型是騰訊和邁瑞醫(yī)療聯(lián)合發(fā)布的全球首個(gè)重癥醫(yī)療大模型，專為ICU病房設(shè)計(jì)，解決重癥監(jiān)護(hù)中的痛點(diǎn)問題。模型整體參數(shù)量達(dá)到萬億級(jí)別，經(jīng)過大量醫(yī)學(xué)...

閱讀原文

AI工具

11個(gè)月前

Poetry2Image

Poetry2Image是一個(gè)專為中文古詩詞圖像生成設(shè)計(jì)的迭代校正框架，哈爾濱工業(yè)大學(xué)提出?？蚣芡ㄟ^自動(dòng)化的反饋和校正循環(huán)，增強(qiáng)了詩歌與圖像之間的一致性，有效...

閱讀原文

AI工具

11個(gè)月前

聯(lián)通元景

聯(lián)通元景（UniT2IXL）是中國聯(lián)通AI推出的中文原生文生圖模型，完全在國產(chǎn)昇騰AI基礎(chǔ)軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理。模型采用復(fù)合語言編碼模塊，優(yōu)化中文長文本...

閱讀原文

AI工具

11個(gè)月前

DiTCtrl

DiTCtrl是基于多模態(tài)擴(kuò)散變換器（MM-DiT）架構(gòu)的多提示視頻生成方法，是香港中文大學(xué)和騰訊等機(jī)構(gòu)聯(lián)合推出的。DiTCtrl能在無需額外訓(xùn)練的情況下，實(shí)現(xiàn)多個(gè)文...

閱讀原文

AI工具

11個(gè)月前

MNN

MNN（Mobile Neural Network）是阿里巴巴集團(tuán)開源的輕量級(jí)深度學(xué)習(xí)推理框架，為移動(dòng)端、服務(wù)器、個(gè)人電腦、嵌入式設(shè)備等多種設(shè)備提供高效的模型部署能力。MNN...

閱讀原文

AI工具

11個(gè)月前

Enhance-A-Video

Enhance-A-Video 是新加坡國立大學(xué)、上海人工智能實(shí)驗(yàn)室和德克薩斯大學(xué)奧斯汀分校聯(lián)合推出的視頻生成增強(qiáng)算法。算法能夠顯著提升AI視頻的生成質(zhì)量，特別是在...

閱讀原文

AI工具

11個(gè)月前

Valley

Valley是字節(jié)跳動(dòng)推出的多模態(tài)大模型，用于處理涉及文本、圖像和視頻數(shù)據(jù)的多樣化任務(wù)。Valley在內(nèi)部電子商務(wù)和短視頻基準(zhǔn)測(cè)試中取得了最佳成績，并在OpenCom...

閱讀原文

AI工具

11個(gè)月前

ModernBERT

ModernBERT是Answer.AI、LightOn、約翰斯·霍普金斯大學(xué)、英偉達(dá)和HuggingFace聯(lián)合推出的現(xiàn)代編碼器-only Transformer模型，是對(duì)經(jīng)典BERT模型的一次重大升級(jí)。...

閱讀原文

AI工具

11個(gè)月前

cobalt

cobalt是開源的流媒體下載工具，提供純凈、簡潔無廣告的體驗(yàn)。cobalt支持全平臺(tái)視頻、音頻和圖片下載，包括主流視頻網(wǎng)站、社交媒體和音樂平臺(tái)。cobalt提供個(gè)...

閱讀原文

AI工具

11個(gè)月前

CogAgent-9B

CogAgent-9B是基于 GLM-4V-9B 訓(xùn)練的專用Agent任務(wù)模型，僅依賴屏幕截圖作為輸入，無需HTML等文本表征。CogAgent-9B支持高分辨率圖像處理，具備雙語（中英文...

閱讀原文

AI工具

11個(gè)月前

AGUVIS

AGUVIS是香港大學(xué)、Salesforce 聯(lián)合推出的統(tǒng)一的純視覺框架，專為自主GUI智能體設(shè)計(jì)，能在各種平臺(tái)（如網(wǎng)頁、桌面、移動(dòng)設(shè)備）上操作。AGUVIS基于圖像觀察和...

閱讀原文

AI工具

11個(gè)月前

Diff-Instruct

Diff-Instruct是先進(jìn)的知識(shí)轉(zhuǎn)移方法，用于從預(yù)訓(xùn)練的擴(kuò)散模型中提取知識(shí)，指導(dǎo)其他生成模型的訓(xùn)練。它基于一種新的散度度量——積分Kullback-Leibler (IKL) 散...

閱讀原文

AI工具

11個(gè)月前

1…89 909192 93…155