AI項目和框架

PersonaMagic

PersonaMagic 是創新的高保真人臉定制技術,通過階段調節的文本條件策略實現個性化圖像生成。基于簡單多層感知機(MLP)網絡學習一系列動態嵌入,在特定時間...
閱讀原文

InstructMove

InstructMove是東京大學和Adobe公司聯合推出的基于指令的圖像編輯模型,通過觀察視頻中的幀對變化學習如何根據指令進行圖像操作。模型基于多模態大型語言模型...
閱讀原文

LatentSync

LatentSync是字節跳動、北京交通大學聯合推出的端到端唇形同步框架,基于音頻條件的潛在擴散模型,無需任何中間的3D表示或2D特征點。LatentSync用Stable Diff...
閱讀原文

LongDocURL

LongDocURL是中國科學院自動化研究所和阿里巴巴淘寶天貓集團聯合發布的多模態長文檔理解基準數據集。專注于評估模型在處理長文檔、復雜元素和多樣化任務中的...
閱讀原文

DeepSeek Artifacts

DeepSeek Artifacts是Hugging Face推出的免費AI編碼器工具,能生成React和Tailwind CSS的前端代碼。工具基于DeepSeek V3,主要目標是構建公共的前端代碼數據...
閱讀原文

Jina Reader

Jina Reader 是 Jina AI 推出的開源工具,能將互聯網上的 HTML 網頁內容轉換為適合大型語言模型(LLMs)處理的純文本格式。用戶只需在網址前添加特定前綴,即...
閱讀原文

Memory Layers

Memory Layers是Meta推出的用可訓練的鍵值查找機制為模型增加額外參數的方法,它不會增加浮點運算次數(FLOPs)。基于稀疏激活補充計算密集型的前饋層,提供...
閱讀原文

Cognita

Cognita是開源的模塊化RAG(Retrieval Augmented Generation)框架,能幫助開發者構建模塊化、易于擴展和部署的生產級應用程序。Cognita用Langchain/LlamaInd...
閱讀原文

LAM

LAM是微軟推出的名為“Large Action Model”(簡稱 LAM)的新人工智能模型。與傳統語言模型不同,LAM能夠自主操作Windows程序,實現真實任務執行。 能理解文本...
閱讀原文

smolagents

smolagents 是 Hugging Face 推出的一個輕量級開源庫,旨在簡化智能代理的構建過程。極簡的代碼量(約千行)和直觀的API設計,使開發者能快速搭建和部署智能...
閱讀原文

REEF

REEF(Representation Encoding Fingerprints)是用于大型語言模型(LLM)的指紋識別技術。通過在模型訓練過程中嵌入特定的編碼信息,為每個模型生成一個唯一...
閱讀原文

Inf-DiT

Inf-DiT 是清華大學、智譜AI 推出基于擴散模型的圖像上采樣方法,能生成超高分辨率圖像。Inf-DiT引入單向塊注意力機制(UniBA),將生成過程中的空間復雜度從...
閱讀原文

SocraticLM

SocraticLM 是通過蘇格拉底式的教學法來教授數學的創新人工智能模型,模型由中科大和科大訊飛共同開發,采用了“Thought-Provoking”教學范式,通過提問引導學...
閱讀原文

VMix

VMix是創新的即插即用美學適配器,旨在提升文本到圖像擴散模型生成圖像的美學質量。通過解耦輸入文本提示中的內容描述和美學描述,將細粒度的美學標簽(如色...
閱讀原文

smoltalk-chinese

smoltalk-chinese 是OpenCSG開源的專為中文大型語言模型(LLM)設計的合成數據集,該數據集包含超過 70 萬條合成數據,涵蓋了信息查詢、推理、計劃、編輯、編...
閱讀原文
17576777879146