AI項(xiàng)目和框架

Vision Parse

Vision Parse是開源的PDF文檔轉(zhuǎn)換工具,基于視覺語言模型(Vision LLMs)將PDF文件轉(zhuǎn)換成Markdown格式。Vision Parse能智能識(shí)別和提取PDF中的文本和表格,且...
閱讀原文

The Language of Motion

The Language of Motion是斯坦福大學(xué)李飛飛團(tuán)隊(duì)推出的多模態(tài)語言模型,能整合人類動(dòng)作中的言語和非言語語言。模型能處理文本、語音和動(dòng)作數(shù)據(jù),生成對(duì)應(yīng)的目...
閱讀原文

Mathtutor on Groq

Mathtutor on Groq 是基于 Groq 架構(gòu)的AI數(shù)學(xué)輔導(dǎo)工具,基于語音識(shí)別功能,支持用戶用語音形式提出數(shù)學(xué)問題。工具內(nèi)置強(qiáng)大的數(shù)學(xué)引擎,能實(shí)時(shí)計(jì)算并用 LaTeX ...
閱讀原文

啟元重癥大模型

啟元重癥大模型是騰訊和邁瑞醫(yī)療聯(lián)合發(fā)布的全球首個(gè)重癥醫(yī)療大模型,專為ICU病房設(shè)計(jì),解決重癥監(jiān)護(hù)中的痛點(diǎn)問題。模型整體參數(shù)量達(dá)到萬億級(jí)別,經(jīng)過大量醫(yī)學(xué)...
閱讀原文

Poetry2Image

Poetry2Image是一個(gè)專為中文古詩詞圖像生成設(shè)計(jì)的迭代校正框架,哈爾濱工業(yè)大學(xué)提出??蚣芡ㄟ^自動(dòng)化的反饋和校正循環(huán),增強(qiáng)了詩歌與圖像之間的一致性,有效...
閱讀原文

聯(lián)通元景

聯(lián)通元景(UniT2IXL)是中國聯(lián)通AI推出的中文原生文生圖模型,完全在國產(chǎn)昇騰AI基礎(chǔ)軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理。模型采用復(fù)合語言編碼模塊,優(yōu)化中文長文本...
閱讀原文

DiTCtrl

DiTCtrl是基于多模態(tài)擴(kuò)散變換器(MM-DiT)架構(gòu)的多提示視頻生成方法,是香港中文大學(xué)和騰訊等機(jī)構(gòu)聯(lián)合推出的。DiTCtrl能在無需額外訓(xùn)練的情況下,實(shí)現(xiàn)多個(gè)文...
閱讀原文

MNN

MNN(Mobile Neural Network)是阿里巴巴集團(tuán)開源的輕量級(jí)深度學(xué)習(xí)推理框架,為移動(dòng)端、服務(wù)器、個(gè)人電腦、嵌入式設(shè)備等多種設(shè)備提供高效的模型部署能力。MNN...
閱讀原文

Enhance-A-Video

Enhance-A-Video 是新加坡國立大學(xué)、上海人工智能實(shí)驗(yàn)室和德克薩斯大學(xué)奧斯汀分校聯(lián)合推出的視頻生成增強(qiáng)算法。算法能夠顯著提升AI視頻的生成質(zhì)量,特別是在...
閱讀原文

Valley

Valley是字節(jié)跳動(dòng)推出的多模態(tài)大模型,用于處理涉及文本、圖像和視頻數(shù)據(jù)的多樣化任務(wù)。Valley在內(nèi)部電子商務(wù)和短視頻基準(zhǔn)測(cè)試中取得了最佳成績,并在OpenCom...
閱讀原文

ModernBERT

ModernBERT是Answer.AI、LightOn、約翰斯·霍普金斯大學(xué)、英偉達(dá)和HuggingFace聯(lián)合推出的現(xiàn)代編碼器-only Transformer模型,是對(duì)經(jīng)典BERT模型的一次重大升級(jí)。...
閱讀原文

cobalt

cobalt是開源的流媒體下載工具,提供純凈、簡潔無廣告的體驗(yàn)。cobalt支持全平臺(tái)視頻、音頻和圖片下載,包括主流視頻網(wǎng)站、社交媒體和音樂平臺(tái)。cobalt提供個(gè)...
閱讀原文

CogAgent-9B

CogAgent-9B是基于 GLM-4V-9B 訓(xùn)練的專用Agent任務(wù)模型,僅依賴屏幕截圖作為輸入,無需HTML等文本表征。CogAgent-9B支持高分辨率圖像處理,具備雙語(中英文...
閱讀原文

AGUVIS

AGUVIS是香港大學(xué)、Salesforce 聯(lián)合推出的統(tǒng)一的純視覺框架,專為自主GUI智能體設(shè)計(jì),能在各種平臺(tái)(如網(wǎng)頁、桌面、移動(dòng)設(shè)備)上操作。AGUVIS基于圖像觀察和...
閱讀原文

Diff-Instruct

Diff-Instruct是先進(jìn)的知識(shí)轉(zhuǎn)移方法,用于從預(yù)訓(xùn)練的擴(kuò)散模型中提取知識(shí),指導(dǎo)其他生成模型的訓(xùn)練。它基于一種新的散度度量——積分Kullback-Leibler (IKL) 散...
閱讀原文
18990919293155