AI項(xiàng)目和框架

RAG-FiT

RAG-FiT(曾用名RAG Foundry)是英特爾實(shí)驗(yàn)室推出的開(kāi)源框架,用在微調(diào)(fine-tuning)增強(qiáng)大型語(yǔ)言模型(LLMs)在檢索增強(qiáng)生成(RAG)任務(wù)中的表現(xiàn)。RAG-FiT...
閱讀原文

FluxSR

FluxSR是新型的單步擴(kuò)散模型,是上海交通大學(xué)、哈佛大學(xué)、華南理工大學(xué)和華為諾亞方舟實(shí)驗(yàn)室推出的專門(mén)用在真實(shí)世界圖像超分辨率(Real-ISR)任務(wù)。FluxSR基...
閱讀原文

DynamicFace

DynamicFace是小紅書(shū)團(tuán)隊(duì)推出新型的視頻換臉技術(shù),技術(shù)通過(guò)結(jié)合擴(kuò)散模型和即插即用的時(shí)間層,基于3D面部先驗(yàn)知識(shí),實(shí)現(xiàn)高質(zhì)量和一致性的視頻換臉效果。 Dynam...
閱讀原文

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能實(shí)驗(yàn)版AI模型,專為編程性能和復(fù)雜提示處理優(yōu)化。Gemini 2.0 Pro具備200萬(wàn)tokens的超大上下文窗口,能處理和分析海量信息...
閱讀原文

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架開(kāi)源的 Android 手機(jī)應(yīng)用,支持各類大語(yǔ)言模型(LLM)在手機(jī)上離線運(yùn)行。具備多模態(tài)功能,能實(shí)現(xiàn)文本生成文本、圖像生...
閱讀原文

DeepRAG

DeepRAG 是中科院、中科大和騰訊微信AI部聯(lián)合推出的新型檢索增強(qiáng)生成(RAG)框架,提升大型語(yǔ)言模型(LLMs)在推理和檢索任務(wù)中的性能。通過(guò)將檢索增強(qiáng)推理建...
閱讀原文

OpenDeepResearcher

OpenDeepResearcher 是開(kāi)源的 AI 研究工具,能幫助用戶高效地完成復(fù)雜的信息查詢和分析任務(wù)。基于迭代搜索和推理,自動(dòng)從網(wǎng)絡(luò)中獲取相關(guān)數(shù)據(jù),生成綜合報(bào)告。...
閱讀原文

OCRmyPDF

OCRmyPDF 是開(kāi)源的命令行工具,專為將掃描的 PDF 文件轉(zhuǎn)換為可搜索、可復(fù)制的文檔。通過(guò)添加 OCR 文本層,將無(wú)法直接編輯的掃描 PDF 文件能被搜索和編輯。工...
閱讀原文

node-DeepResearch

node-DeepResearch 是開(kāi)源的 AI 智能體項(xiàng)目,基于持續(xù)搜索和閱讀網(wǎng)頁(yè),用 Gemini 語(yǔ)言模型和 Jina Reader 工具,逐步推理、回答復(fù)雜問(wèn)題,直到找到答案或超出...
閱讀原文

OmniHuman

OmniHuman 是字節(jié)跳動(dòng)推出的端到端多模態(tài)條件化人類視頻生成框架,能基于單張人類圖像和運(yùn)動(dòng)信號(hào)(如音頻、視頻或兩者的組合)生成逼真的人類視頻。OmniHuman...
閱讀原文

VideoReward

VideoReward 是香港中文大學(xué)、清華大學(xué)、快手科技等聯(lián)合創(chuàng)建的視頻生成偏好數(shù)據(jù)集及獎(jiǎng)勵(lì)模型。包含182,000條標(biāo)注數(shù)據(jù),涵蓋視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量和文本對(duì)齊三個(gè)...
閱讀原文

MILS

MILS(Multimodal Iterative LLM Solver)是Meta AI提出的無(wú)需訓(xùn)練即可賦予大型語(yǔ)言模型(LLM)多模態(tài)能力的方法。通過(guò)多步推理,提示LLM生成候選輸出,對(duì)每...
閱讀原文

X-Prompt

X-Prompt是用于多模態(tài)視頻目標(biāo)分割的通用框架,解決傳統(tǒng)方法在極端光照、快速運(yùn)動(dòng)和背景干擾等復(fù)雜場(chǎng)景下的局限性。通過(guò)預(yù)訓(xùn)練一個(gè)基于 RGB 數(shù)據(jù)的視頻目標(biāo)分...
閱讀原文

BitsAI-CR

BitsAI-CR是字節(jié)跳動(dòng)團(tuán)隊(duì)推出的基于大型語(yǔ)言模型(LLM)的自動(dòng)化代碼審查工具,通過(guò)兩階段處理流程實(shí)現(xiàn)高效代碼審查:RuleChecker 負(fù)責(zé)基于 219 條規(guī)則檢測(cè)潛...
閱讀原文

DiffSplat

DiffSplat是新型的 3D 生成方法,從文本提示和單視圖圖像快速生成 3D 高斯點(diǎn)陣(Gaussian Splats)。通過(guò)微調(diào)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,基于強(qiáng)大的 2D 先...
閱讀原文
16970717273146