AI項目和框架

JoyGen

JoyGen是京東科技和香港大學推出的,音頻驅動的3D說話人臉視頻生成框架,專注于實現精確的唇部與音頻同步及高質量的視覺效果。JoyGen結合音頻特征和面部深度...
閱讀原文

LIMO

LIMO(Less Is More for Reasoning)是上海交通大學研究團隊提出的高效推理方法,通過極少量高質量的訓練樣本激活大語言模型(LLM)的復雜推理能力。核心假設...
閱讀原文

VideoJAM

VideoJAM是Meta推出的,用在增強視頻生成模型運動連貫性的框架。基于引入聯合外觀-運動表示,讓模型在訓練階段同時學習預測視頻的像素和運動信息,在推理階段...
閱讀原文

SynCD

SynCD(Synthetic Customization Dataset)是卡內基梅隆大學和Meta推出的高質量合成訓練數據集,用在提升文本到圖像模型的定制化能力。SynCD包含多個相同對象...
閱讀原文

MatAnyone

MatAnyone是南洋理工大學S-Lab實驗室和商湯科技推出的,針對復雜背景人像視頻摳圖的先進框架,專注于目標指定的視頻摳圖任務。MatAnyone基于一致的內存傳播模...
閱讀原文

s1

s1是斯坦福大學和華盛頓大學的研究團隊開發的低成本、高性能的AI推理模型。模型通過“蒸餾”技術從谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推...
閱讀原文

RAG-FiT

RAG-FiT(曾用名RAG Foundry)是英特爾實驗室推出的開源框架,用在微調(fine-tuning)增強大型語言模型(LLMs)在檢索增強生成(RAG)任務中的表現。RAG-FiT...
閱讀原文

FluxSR

FluxSR是新型的單步擴散模型,是上海交通大學、哈佛大學、華南理工大學和華為諾亞方舟實驗室推出的專門用在真實世界圖像超分辨率(Real-ISR)任務。FluxSR基...
閱讀原文

DynamicFace

DynamicFace是小紅書團隊推出新型的視頻換臉技術,技術通過結合擴散模型和即插即用的時間層,基于3D面部先驗知識,實現高質量和一致性的視頻換臉效果。 Dynam...
閱讀原文

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能實驗版AI模型,專為編程性能和復雜提示處理優化。Gemini 2.0 Pro具備200萬tokens的超大上下文窗口,能處理和分析海量信息...
閱讀原文

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架開源的 Android 手機應用,支持各類大語言模型(LLM)在手機上離線運行。具備多模態功能,能實現文本生成文本、圖像生...
閱讀原文

DeepRAG

DeepRAG 是中科院、中科大和騰訊微信AI部聯合推出的新型檢索增強生成(RAG)框架,提升大型語言模型(LLMs)在推理和檢索任務中的性能。通過將檢索增強推理建...
閱讀原文

OpenDeepResearcher

OpenDeepResearcher 是開源的 AI 研究工具,能幫助用戶高效地完成復雜的信息查詢和分析任務。基于迭代搜索和推理,自動從網絡中獲取相關數據,生成綜合報告。...
閱讀原文

OCRmyPDF

OCRmyPDF 是開源的命令行工具,專為將掃描的 PDF 文件轉換為可搜索、可復制的文檔。通過添加 OCR 文本層,將無法直接編輯的掃描 PDF 文件能被搜索和編輯。工...
閱讀原文

node-DeepResearch

node-DeepResearch 是開源的 AI 智能體項目,基于持續搜索和閱讀網頁,用 Gemini 語言模型和 Jina Reader 工具,逐步推理、回答復雜問題,直到找到答案或超出...
閱讀原文
17879808182155