AI項目和框架

NobodyWho

NobodyWho是為 Godot 游戲引擎設(shè)計的插件,通過本地運行的大型語言模型(LLM)實現(xiàn)互動小說創(chuàng)作。支持 Windows、Linux 和 macOS 平臺,用戶無需聯(lián)網(wǎng)即可使用...
閱讀原文

PIKE-RAG

PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微軟亞洲研究院推出的檢索增強(qiáng)型生成框架,能解決傳統(tǒng)RAG系統(tǒng)在復(fù)雜工業(yè)應(yīng)用中的局...
閱讀原文

Collaborative Gym

Collaborative Gym(Co-Gym)是專注于人機(jī)協(xié)作(Human-Agent Collaboration)的框架,支持人類與AI代理之間的實時交互與協(xié)作。通過模擬和真實兩種實驗條件,...
閱讀原文

TIGER

TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清華大學(xué)研究團(tuán)隊提出的輕量級語音分離模型,通過時頻交叉建模策略,結(jié)...
閱讀原文

ENEL

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是創(chuàng)新的無編碼器3D大型多模態(tài)模型(3D LMM),解決傳統(tǒng)編碼器架構(gòu)在3D理解任務(wù)...
閱讀原文

AnyCharV

AnyCharV 是香港中文大學(xué)、清華大學(xué)深圳國際研究生院、香港大學(xué)聯(lián)合推出的角色可控視頻生成框架,能將任意參考角色圖像與目標(biāo)驅(qū)動視頻相結(jié)合,生成高質(zhì)量的角...
閱讀原文

BAG

BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大學(xué)和騰訊聯(lián)合提出創(chuàng)新的3D可穿戴資產(chǎn)生成技術(shù),通過結(jié)合多視圖圖像擴(kuò)散模型和控制網(wǎng)絡(luò)(Contr...
閱讀原文

通古大模型

通古大模型是華南理工大學(xué)深度學(xué)習(xí)與視覺計算實驗室(SCUT-DLVCLab)推出的專注于古籍文言文處理的人工智能語言模型。基于百川2-7B-Base進(jìn)行增量預(yù)訓(xùn)練,使用...
閱讀原文

Sa2VA

Sa2VA是字節(jié)跳動聯(lián)合加州大學(xué)默塞德分校、武漢大學(xué)和北京大學(xué)共同推出的多模態(tài)大語言模型,是SAM2和LLaVA結(jié)合而成,能實現(xiàn)對圖像和視頻的密集、細(xì)粒度理解。S...
閱讀原文

WebLI-100B

WebLI-100B是Google DeepMind推出的包含1000億圖像-文本對的超大規(guī)模數(shù)據(jù)集,用在預(yù)訓(xùn)練視覺語言模型(VLMs)。WebLI-100B是WebLI數(shù)據(jù)集的擴(kuò)展版本,基于從網(wǎng)...
閱讀原文

OpenThinker-32B

OpenThinker-32B 是斯坦福、UC 伯克利、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)的開源推理模型,擁有 328 億參數(shù),支持 16,000 token 的上下文長度。模型僅使用 114k 數(shù)據(jù)...
閱讀原文

Social Media Agent

Social Media Agent是智能的社交媒體內(nèi)容管理工具,基于輸入的URL內(nèi)容生成Twitter和LinkedIn帖子。Social Media Agent用人機(jī)交互 流程,處理社交媒體平臺認(rèn)證...
閱讀原文

Matrix-Zero

Matrix-Zero是昆侖萬維推出的世界模型,包含兩款子模型:3D場景生成大模型和可交互視頻生成大模型。Matrix-Zero能將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實3D...
閱讀原文

GAS

GAS(Generative Avatar Synthesis from a Single Image)是卡內(nèi)基梅隆大學(xué)、上海人工智能實驗室和斯坦福大學(xué)的研究人員提出的從單張圖像生成高質(zhì)量、視角一...
閱讀原文

Magic 1-For-1

Magic 1-For-1是北京大學(xué)、Hedra Inc. 和 Nvidia 推出的高效視頻生成模型,基于優(yōu)化內(nèi)存消耗和推理延遲快速生成高質(zhì)量視頻片段。模型將復(fù)雜的文本到視頻生成...
閱讀原文
16465666768146