AI項目和框架

CHRONOS

CHRONOS是上海交通大學計算機科學與工程系、阿里巴巴集團通義實驗室等機構聯合推出的,用在新聞時間線摘要生成的新型框架,基于迭代自問自答的方式,用大型語...
閱讀原文

Edicho

Edicho 是香港科技大學、螞蟻集團、斯坦福大學和香港中文大學推出的,基于擴散模型的圖像編輯方法,能在多圖像間實現一致性編輯。Edicho用免訓練的方法,無需...
閱讀原文

Mobile-Agent

Mobile-Agent 是具有移動性的智能代理軟件實體,能在網絡的各個節點之間移動,代表用戶或其他代理進行工作。能根據具體情況中斷當前執行,移動至另一設備上恢...
閱讀原文

VideoRAG

VideoRAG是用于長視頻理解的檢索增強生成(Retrieval-Augmented Generation)技術。通過提取視頻中的視覺對齊輔助文本,幫助大型視頻語言模型(LVLMs)更好地...
閱讀原文

SPRIGHT

SPRIGHT(SPatially RIGHT)是亞利桑那州立大學 、Intel 實驗室 、Hugging Face 、華盛頓大學等機構聯合推出的,專注于空間關系的大型視覺-語言數據集,能解...
閱讀原文

LIGER

LIGER是Meta AI等機構推出的混合檢索模型,結合生成式檢索和密集檢索的優點。LIGER用生成式檢索模塊生成有限的候選項目集,基于密集檢索對候選項目進行排序和...
閱讀原文

SeedVR

SeedVR是南洋理工大學和字節跳動推出的擴散變換器模型,能實現高質量的通用視頻修復。SeedVR基于引入移位窗口注意力機制,采用大尺寸(64×64)窗口和邊界處的...
閱讀原文

OpenHands

OpenHands是AI編程工具,支持多智能體協作提高開發效率,減少開發者的編碼工作量。OpenHands基于編寫代碼、與命令行交互和瀏覽網頁等方式實現與環境的互動。
閱讀原文

VideoAnydoor

VideoAnydoor是香港大學、阿里巴巴集團達摩院、湖畔實驗室、華中科技大學聯合推出的零樣本的視頻對象插入框架,能將特定對象以高保真度和精確運動控制的方式...
閱讀原文

PersonaMagic

PersonaMagic 是創新的高保真人臉定制技術,通過階段調節的文本條件策略實現個性化圖像生成。基于簡單多層感知機(MLP)網絡學習一系列動態嵌入,在特定時間...
閱讀原文

InstructMove

InstructMove是東京大學和Adobe公司聯合推出的基于指令的圖像編輯模型,通過觀察視頻中的幀對變化學習如何根據指令進行圖像操作。模型基于多模態大型語言模型...
閱讀原文

LatentSync

LatentSync是字節跳動、北京交通大學聯合推出的端到端唇形同步框架,基于音頻條件的潛在擴散模型,無需任何中間的3D表示或2D特征點。LatentSync用Stable Diff...
閱讀原文

LongDocURL

LongDocURL是中國科學院自動化研究所和阿里巴巴淘寶天貓集團聯合發布的多模態長文檔理解基準數據集。專注于評估模型在處理長文檔、復雜元素和多樣化任務中的...
閱讀原文

DeepSeek Artifacts

DeepSeek Artifacts是Hugging Face推出的免費AI編碼器工具,能生成React和Tailwind CSS的前端代碼。工具基于DeepSeek V3,主要目標是構建公共的前端代碼數據...
閱讀原文

Jina Reader

Jina Reader 是 Jina AI 推出的開源工具,能將互聯網上的 HTML 網頁內容轉換為適合大型語言模型(LLMs)處理的純文本格式。用戶只需在網址前添加特定前綴,即...
閱讀原文
18485868788155