AI項目和框架

WebDreamer:利用大語言模型提升網絡規劃效率的創新框架

WebDreamer是俄亥俄州立大學和Orby AI研究團隊推出的基于模型規劃的網絡智能體,基于大型語言模型(LLMs),特別是GPT-4o,作為世界模型預測網站上的交互結果...
閱讀原文

BALROG:評估大型語言模型與視覺語言模型在復雜動態環境中推理能力的基準測試工具

BALROG是評估大型語言模型(LLMs)和視覺語言模型(VLMs)在游戲上的推理能力,特別是模型在動態環境中的規劃、空間推理和探索能力。基于一系列挑戰性的游戲...
閱讀原文

AutoVFX:智能化自然語言視頻特效編輯工具提升創作效率與靈活性

AutoVFX是先進的物理特效框架,是伊利諾伊大學香檳分校研究團隊推出的,能根據自然語言指令自動創建真實感和動態的視覺特效(VFX)視頻。框架集成神經場景建...
閱讀原文

Markdown-to-Image:在線 Markdown 轉海報編輯器讓創作變得簡單高效

Markdown-to-Image是開源的Markdown 轉為海報的編輯器,作為React組件能將Markdown文本內容轉換成圖像,適用于創建社交媒體帖子、海報和其他視覺內容。工具支...
閱讀原文

TüLU 3:開源指令遵循模型的創新特性與應用潛力

TüLU 3是艾倫人工智能研究所(Ai2)推出的一系列開源指令遵循模型,包括8B和70B兩個版本,未來計劃推出405B版本。模型在性能上超越Llama 3.1 Instruct版本,...
閱讀原文

EchoMimicV2:革新數字人生成技術實現個性化虛擬形象定制

EchoMimicV2是螞蟻集團推出的半身人體動畫(數字人)生成方法,基于參考圖片、音頻剪輯和手部姿勢序列生成高質量動畫視頻,確保音頻內容與半身動作的一致性。...
閱讀原文

FlipSketch:薩里大學推出的智能文本驅動無約束草圖動畫生成系統

FlipSketch 是薩里大學推出的創新系統,能將靜態繪圖轉變為文本引導的草圖動畫。技術基于三個關鍵創新實現:微調草圖風格的幀生成、用噪聲細化保持輸入草圖視...
閱讀原文

Add-it:英偉達推出無需訓練的智能圖像編輯工具,實現一鍵式創作與靈活調整

Add-it是NVIDIA推出的無需訓練的圖像編輯技術,能根據文本指令在圖像中添加對象。這項技術基于擴展擴散模型的注意力機制,整合場景圖像、文本提示和生成圖像...
閱讀原文

DINO-X:通用視覺大模型助力智能識別與分析的新時代

DINO-X是IDEA研究院推出的通用視覺大模型,具備開放世界對象檢測與理解能力。支持文本、視覺和定制提示,能識別圖像中的任何對象而無需用戶提示。基于超過1億...
閱讀原文

The Matrix:AI基礎世界模擬器打造虛擬環境助力創新與探索

The Matrix是與電影同名的、首個AI基礎世界模擬器,是全華人團隊推出的(作者分別來自阿里巴巴、香港大學、滑鐵盧大學和加拿大AI研究機構Vector Insititute)...
閱讀原文

DreamPolish:智能文本到3D生成平臺實現創意無限可能

DreamPolish是Zhipu AI、清華大學和北京大學推出的文本到3D生成模型,基于兩階段方法改進復雜對象的精細幾何結構和高質量紋理的生成。第一階段用多種神經表示...
閱讀原文

OmniBooth:華為諾亞方舟與港科大攜手打造創新圖像生成框架,推動智能創作新體驗

OmniBooth是華為諾亞方舟實驗室和港科大研究團隊共同推出的圖像生成框架,支持基于文本提示或圖像參考進行空間控制和實例級定制。框架用用戶定義的掩碼和相關...
閱讀原文

DynaMem:智能互動空間記憶系統提升人機協作體驗

DynaMem是紐約大學和Hello Robot推出的動態空間語義記憶系統,專為開放世界中的移動操作設計。基于維護一個特征點云作為機器人記憶,處理環境中的動態變化,...
閱讀原文

MVPaint:騰訊PCG與高校聯手打造的創新3D紋理生成框架,助力數字創作新

MVPaint是騰訊PCG 、上海AI LAB、南洋理工大學S-Lab、清華大學共同推出的3D紋理生成框架,基于同步多視角擴散技術實現高分辨率、無縫且多視圖一致的3D紋理生...
閱讀原文

LTXV:Lightricks推出創新開源AI視頻生成模型,實現高效創作與個性化定制

LTXV是Lightricks推出的開源AI視頻生成模型,全稱為LTX Video。能在4秒內生成5秒的高質量視頻,速度超過觀看速度。基于2億參數的DiT架構,確保幀間平滑運動和...
閱讀原文