AI項(xiàng)目和框架

DreamO

DreamO 是字節(jié)跳動(dòng)創(chuàng)作團(tuán)隊(duì)聯(lián)合北京大學(xué)深圳研究生院電子與計(jì)算機(jī)工程學(xué)院聯(lián)合推出的用在圖像定制生成的統(tǒng)一框架,基于預(yù)訓(xùn)練的擴(kuò)散變換器(DiT)模型實(shí)現(xiàn)多...
閱讀原文

Spatial-RAG

Spatial-RAG(Spatial Retrieval-Augmented Generation)是美國(guó)埃默里大學(xué)、德克薩斯大學(xué)奧斯汀分校推出的用在提升大型語(yǔ)言模型(LLMs)空間推理能力的框架。...
閱讀原文

Concept Lancet

Concept Lancet(CoLan)是賓夕法尼亞大學(xué)的研究團(tuán)隊(duì)推出的零樣本、即插即用的圖像編輯框架。Concept Lancet基于在潛在空間中對(duì)圖像進(jìn)行稀疏分解,將圖像表示...
閱讀原文

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 構(gòu)建的開(kāi)源項(xiàng)目,用在開(kāi)發(fā)與 WhatsApp 用戶互動(dòng)的 AI Agent。項(xiàng)目支持多代理架構(gòu)和圖譜處理,能處理文...
閱讀原文

WebSSL

WebSSL(Web-scale Self-Supervised Learning)是Meta、紐約大學(xué)等機(jī)構(gòu)推出的視覺(jué)自監(jiān)督學(xué)習(xí)(SSL)系列模型,基于大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)(如數(shù)十億圖像)訓(xùn)練視覺(jué)模...
閱讀原文

Paper2Code

Paper2Code 是韓國(guó)科學(xué)技術(shù)院和DeepAuto.ai聯(lián)合推出的多 Agent 大語(yǔ)言模型(LLM)框架,支持將機(jī)器學(xué)習(xí)領(lǐng)域的科學(xué)論文自動(dòng)轉(zhuǎn)換為可運(yùn)行的代碼倉(cāng)庫(kù)。
閱讀原文

EmaFusion

EmaFusion 是人工智能初創(chuàng)公司 Ema 推出的多模型融合技術(shù),為企業(yè)級(jí) AI 應(yīng)用提供高效、靈活且低成本的解決方案。通過(guò)動(dòng)態(tài)結(jié)合 100 多種語(yǔ)言模型,根據(jù)任務(wù)需...
閱讀原文

Lyria 2

Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音樂(lè)生成模型,作為 Vertex AI 平臺(tái)的核心組件,具備高保真音頻生成能力,能輸出 48kHz、24-bit 的專業(yè)級(jí)立體聲音...
閱讀原文

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 最新推出的圖像生成模型,是目前最快、最具控制性和最逼真的 Firefly 圖像模型,支持生成逼真的圖像,提供更高的分辨率(最...
閱讀原文

Step1X-Edit

Step1X-Edit 是階躍星辰團(tuán)隊(duì)推出的通用圖像編輯框架,能縮小開(kāi)源圖像編輯模型與閉源模型(如 GPT-4o 和 Gemini2 Flash)之間的性能差距。Step1X-Edit結(jié)合多模...

LiveCC

LiveCC 是新加坡國(guó)立大學(xué)Show Lab 團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng)推出的實(shí)時(shí)視頻解說(shuō)模型,基于自動(dòng)語(yǔ)音識(shí)別(ASR)字幕進(jìn)行大規(guī)模訓(xùn)練。LiveCC像專業(yè)解說(shuō)員一樣快速分析視...
閱讀原文

OpenMath-Nemotron

OpenMath-Nemotron是英偉達(dá)推出的一系列開(kāi)源數(shù)學(xué)推理模型,專門(mén)用在解決復(fù)雜數(shù)學(xué)問(wèn)題,包括奧林匹克級(jí)別的難題。模型基于大規(guī)模數(shù)據(jù)集OpenMathReasoning進(jìn)行...
閱讀原文

Kimi-Audio

Kimi-Audio 是 Moonshot AI 推出的開(kāi)源音頻基礎(chǔ)模型,專注于音頻理解、生成和對(duì)話任務(wù)。在超過(guò) 1300 萬(wàn)小時(shí)的多樣化音頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,具備強(qiáng)大的音頻推...
閱讀原文

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模態(tài)大模型。基于文心大模型4.5的基礎(chǔ)上進(jìn)行優(yōu)化,具備多模態(tài)、強(qiáng)推理能力,能處理文本、圖像等多種輸入形...
閱讀原文

文心大模型X1 Turbo

文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升級(jí)版本,具備更先進(jìn)的思維鏈和深度思考理能力,擅長(zhǎng)文學(xué)創(chuàng)作、邏輯推理等,進(jìn)一步...
閱讀原文
14546474849155