AI項目和框架

DragAnything

DragAnything 是快手聯(lián)合浙江大學(xué)和新加坡國立大學(xué) Show Lab推出的,基于實體表示的可控視頻生成方法,基于簡單的軌跡輸入實現(xiàn)對視頻中任意物體的精確運動控...
閱讀原文

GENERator

GENERator是阿里云飛天實驗室 AI for Science 團(tuán)隊推出的生成式基因組基礎(chǔ)模型,專注于 DNA 序列的設(shè)計和生成。模型基于 Transformer 解碼器架構(gòu),具有 98k ...
閱讀原文

NPOA

NPOA 是開源的功能強大的輿情監(jiān)測工具,可以幫助用戶實時監(jiān)控網(wǎng)絡(luò)輿情,了解公眾對特定話題或品牌的看法。系統(tǒng)基于先進(jìn)的自然語言處理技術(shù),可以分析大量的網(wǎng)...
閱讀原文

Long-VITA

Long-VITA 是騰訊優(yōu)圖實驗室、南京大學(xué)、廈門大學(xué)開源的多模態(tài)模型,能處理超過100萬tokens的長文本輸入,在短文本任務(wù)中表現(xiàn)出色。Long-VITA基于分階段訓(xùn)練...
閱讀原文

WiseDiag

WiseDiag 是杭州智診科技推出的全球領(lǐng)先的醫(yī)療大模型,專注于基于人工智能技術(shù)提升醫(yī)療服務(wù)的效率和質(zhì)量。模型具有 730 億參數(shù)和 32k 的上下文長度,基于超過...
閱讀原文

CustomVideoX

CustomVideoX 是中科大和浙大等聯(lián)合提出的創(chuàng)新的個性化視頻生成框架,通過參考圖像和文本描述生成高質(zhì)量的定制化視頻。框架基于視頻擴散變換器(Video Diffus...
閱讀原文

NobodyWho

NobodyWho是為 Godot 游戲引擎設(shè)計的插件,通過本地運行的大型語言模型(LLM)實現(xiàn)互動小說創(chuàng)作。支持 Windows、Linux 和 macOS 平臺,用戶無需聯(lián)網(wǎng)即可使用...
閱讀原文

PIKE-RAG

PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微軟亞洲研究院推出的檢索增強型生成框架,能解決傳統(tǒng)RAG系統(tǒng)在復(fù)雜工業(yè)應(yīng)用中的局...
閱讀原文

Collaborative Gym

Collaborative Gym(Co-Gym)是專注于人機協(xié)作(Human-Agent Collaboration)的框架,支持人類與AI代理之間的實時交互與協(xié)作。通過模擬和真實兩種實驗條件,...
閱讀原文

TIGER

TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清華大學(xué)研究團(tuán)隊提出的輕量級語音分離模型,通過時頻交叉建模策略,結(jié)...
閱讀原文

ENEL

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是創(chuàng)新的無編碼器3D大型多模態(tài)模型(3D LMM),解決傳統(tǒng)編碼器架構(gòu)在3D理解任務(wù)...
閱讀原文

AnyCharV

AnyCharV 是香港中文大學(xué)、清華大學(xué)深圳國際研究生院、香港大學(xué)聯(lián)合推出的角色可控視頻生成框架,能將任意參考角色圖像與目標(biāo)驅(qū)動視頻相結(jié)合,生成高質(zhì)量的角...
閱讀原文

BAG

BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大學(xué)和騰訊聯(lián)合提出創(chuàng)新的3D可穿戴資產(chǎn)生成技術(shù),通過結(jié)合多視圖圖像擴散模型和控制網(wǎng)絡(luò)(Contr...
閱讀原文

通古大模型

通古大模型是華南理工大學(xué)深度學(xué)習(xí)與視覺計算實驗室(SCUT-DLVCLab)推出的專注于古籍文言文處理的人工智能語言模型。基于百川2-7B-Base進(jìn)行增量預(yù)訓(xùn)練,使用...
閱讀原文

Sa2VA

Sa2VA是字節(jié)跳動聯(lián)合加州大學(xué)默塞德分校、武漢大學(xué)和北京大學(xué)共同推出的多模態(tài)大語言模型,是SAM2和LLaVA結(jié)合而成,能實現(xiàn)對圖像和視頻的密集、細(xì)粒度理解。S...
閱讀原文
17374757677155