AI項目和框架

Vidu 1.5:生數科技發布支持多主體一致性的多模態大規模模型

Vidu 1.5是生數科技推出的AI視頻生成平臺最新版本,致力于幫助創作者自由表達和高效創作。具備多模態視頻大模型,支持參考生視頻、圖生視頻和文生視頻,確保...
閱讀原文

AgentReview:基于大語言模型代理的同行評審過程模擬框架

AgentReview是基于大型語言模型(LLM)的框架,模擬學術同行評審過程。AgentReview基于LLM代理模擬評審者、作者和領域主席的角色,支持研究者在尊重隱私的同...
閱讀原文

CHANGER:利用AI換頭技術實現演員與目標身體的完美融合

CHANGER是工業級超自然AI換頭與色鍵技術,用在數字內容創作中將演員頭部無縫集成到目標身體上,適于視覺特效、數字人類創建和虛擬化身。CHANGER基于色鍵技術...
閱讀原文

Kiroku:多智能體系統下學生與導師的互動與文檔協作模擬研究

Kiroku是多智能體系統,輔助用戶組織和撰寫文檔。靈感源自創始人在斯坦福大學攻讀博士期間的學術寫作經歷,Kiroku模擬學生與導師間的互動,幫助用戶快速生成...
閱讀原文

Vision Search Assistant:結合視覺語言模型與網絡代理搜索技術的開源框架研究

Vision Search Assistant(VSA)是結合視覺語言模型(VLMs)和網絡代理的框架,提升模型對未知視覺內容的理解能力。基于互聯網檢索,使VLMs處理和回答有關未...
閱讀原文

MVDrag3D:南洋理工大學發布的可視化拖拽3D多視角編輯技術

MVDrag3D是創新的3D編輯框架,結合多視圖生成和重建先驗實現靈活且富有創造性的拖拽編輯。框架用多視圖擴散模型作為生成先驗,確保在多個渲染視圖間進行一致...
閱讀原文

Chonkie:多種文本分塊技術:基于Token、單詞、句子與語義的分析方法

Chonkie是輕量級、快速且功能豐富的RAG(Retrieval-Augmented Generation)分塊庫,為文本處理設計。Chonkie支持基于Token、單詞、句子和語義的多種分塊方法...
閱讀原文

MSQA:大規模多模態3D場景推理數據集

MSQA(Multi-modal Situated Question Answering)是大規模多模態情境推理數據集,提升具身AI代理在3D場景中的理解與推理能力。數據集包含251K個問答對,覆蓋...
閱讀原文

Excalidraw:實時協作的手繪風格在線白板工具

Excalidraw是開源的在線繪圖工具,擁有簡潔的手繪風格和實時協作功能。Excalidraw完全在瀏覽器中運行,無需安裝,支持多人同時編輯同一張圖,提供端到端加密...
閱讀原文

RMBG-2.0:高精度圖像背景去除模型的開源解決方案

RMBG-2.0是BRIA AI推出的最新開源圖像背景移除模型,基于先進的AI技術實現高精度的前景與背景分離,達到SOTA(State of the Art,即當前最佳)水平。RMBG-2.0...
閱讀原文

JanusFlow:多模態理解與生成任務的統一框架DeepSeek的開源實現

JanusFlow是DeepSeek推出的 Janus 系列,用在多模態理解和生成任務的模型,整合自回歸語言模型與校正流技術,在單一模型中實現圖像理解和生成。框架基于解耦...
閱讀原文

SWE-Kit:基于開源框架打造個性化軟件工程AI助手

SWE-Kit 是Composio 推出的開源框架, 簡化軟件工程 AI 代理的開發過程。SWE-Kit提供無頭 IDE 環境和 AI 原生工具,用于構建自定義編碼代理,支持與多種代理...
閱讀原文

Text Behind Image:在角色背后插入文字標題

Text Behind Image是開源的在線工具,支持用戶在圖片中的角色背后添加文字,創建具有視覺沖擊力的海報和社交媒體圖像。用戶在圖像中的主體背后添加自定義文本...
閱讀原文

云錦天章:基于DCFormer架構的通用大模型由彩云科技發布

云錦天章是彩云科技推出的基于DCFormer架構的通用大模型,DCFormer在性能上實現對傳統Transformer模型1.7-2倍的提升。云錦天章在虛構的世界觀基礎上賦予小說...
閱讀原文

Void:開源AI編碼工具的智能補全與建議功能

Void 是基于 Visual Studio Code 構建的開源文本編輯器,集成AI技術增強編程體驗。Void支持代碼自動補全、內聯編輯、AI 驅動的代碼搜索,直接與大型語言模型...
閱讀原文