AI項(xiàng)目和框架

ModelEngine

ModelEngine 是華為開源的全流程 AI 開發(fā)工具鏈,圍繞數(shù)據(jù)使能、模型使能和應(yīng)用使能三大核心功能展開,解決 AI 行業(yè)化落地過程中數(shù)據(jù)工程耗時(shí)長、模型訓(xùn)練和...
閱讀原文

Ideogram 3.0

Ideogram 3.0 是Ideogram推出的 AI 圖像生成模型。Ideogram 3.0在圖像生成質(zhì)量上實(shí)現(xiàn)飛躍,具備高度的真實(shí)感、出色的文本渲染和強(qiáng)大的語言理解能力,支持生成...
閱讀原文

Piece it Together

Piece it Together (PiT)是Bria AI等機(jī)構(gòu)推出的創(chuàng)新圖像生成框架,專門用在從部分視覺組件生成完整的概念圖像。基于特定領(lǐng)域的先驗(yàn)知識,將用戶提供的碎片...
閱讀原文

RF-DETR

RF-DETR是Roboflow推出的實(shí)時(shí)目標(biāo)檢測模型。RF-DETR是首個(gè)在COCO數(shù)據(jù)集上達(dá)到60+平均精度均值(mAP)的實(shí)時(shí)模型,性能優(yōu)于現(xiàn)有的目標(biāo)檢測模型。RF-DETR結(jié)合LW...
閱讀原文

Bolt3D

Bolt3D 是谷歌研究院、牛津大學(xué) VGG 團(tuán)隊(duì)和谷歌 DeepMind 聯(lián)合推出的新型 3D 場景生成技術(shù),是潛在擴(kuò)散模型,能在單個(gè) GPU 上,僅需不到七秒的時(shí)間,直接從一...
閱讀原文

Qwen2.5-Omni

Qwen2.5-Omni 是阿里開源的 Qwen 系列旗艦級多模態(tài)模型,擁有7B參數(shù),Qwen2.5-Omni具備強(qiáng)大的多模態(tài)感知能力,能處理文本、圖像、音頻和視頻輸入,支持流式文...
閱讀原文

Cosmos-Reason1

Cosmos-Reason1 是 NVIDIA 推出的一系列多模態(tài)大型語言模型,基于物理常識和具身推理理解物理世界。Cosmos-Reason1包括兩個(gè)模型:Cosmos-Reason1-8B 和 Cosmo...
閱讀原文

Video-T1

Video-T1 是清華大學(xué)和騰訊的研究人員共同推出的視頻生成技術(shù),基于測試時(shí)擴(kuò)展(Test-Time Scaling,TTS)提升視頻生成的質(zhì)量和一致性。傳統(tǒng)視頻生成模型在訓(xùn)...
閱讀原文

Oliva

Oliva 是開源的語音RAG助手,結(jié)合 Langchain 和 Superlinked 技術(shù),基于語音驅(qū)動(dòng)的 RAG(檢索增強(qiáng)生成)架構(gòu),幫助用戶在 Qdrant 向量數(shù)據(jù)庫中實(shí)時(shí)搜索信息。...
閱讀原文

Mureka O1

Mureka O1是昆侖萬維發(fā)布的全球首款音樂推理大模型,全球首個(gè)引入“思維鏈”(Chain of Thought,CoT)技術(shù)的音樂模型,Mureka O1在推理過程中加入思考與自我批...
閱讀原文

Mureka V6

Mureka V6是昆侖萬維推出的AI音樂創(chuàng)作平臺的基座模型,支持純音樂生成以及10種語言的AI音樂創(chuàng)作。引入自研的ICL(in-context learning)技術(shù),使聲場更加開闊...
閱讀原文

pdf-craft

pdf-craft 是用在將 PDF 文件轉(zhuǎn)換為其他格式(如 Markdown、EPUB)的工具,專注于處理掃描書籍的 PDF 文件。pdf-craft 支持提取正文內(nèi)容,過濾掉頁眉、頁腳、...
閱讀原文

TaoAvatar

TaoAvatar是阿里巴巴集團(tuán)研究團(tuán)隊(duì)推出的高保真、輕量級的3D全身對話虛擬人技術(shù)?;?D高斯濺射技術(shù),能生成照片級逼真的3D全身虛擬形象,支持高分辨率渲染且...
閱讀原文

Gemini 2.5 Pro

Gemini 2.5 Pro 是谷歌推出的最新 AI 模型,是一個(gè)“思考模型”,能在回應(yīng)前進(jìn)行推理,提升性能和準(zhǔn)確性。模型在多個(gè)基準(zhǔn)測試中表現(xiàn)卓越,在推理和代碼生成方面...
閱讀原文

ReasonGraph

ReasonGraph 是用在可視化和分析大語言模型(LLMs)推理過程的開源網(wǎng)絡(luò)平臺。ReasonGraph支持超過 50 種主流模型(如 Anthropic、OpenAI、Google 等),涵蓋...
閱讀原文
15556575859155