AI項(xiàng)目和框架

SongCreator:智能音樂創(chuàng)作助手提升您的音樂創(chuàng)作體驗(yàn)

SongCreator是清華大學(xué)深圳國(guó)際研究生院、香港中文大學(xué)等機(jī)構(gòu)推出的歌曲生成系統(tǒng),能從歌詞出發(fā)生成包含聲樂和伴奏的完整歌曲?;陔p序列語言模型(DSLM)和...
閱讀原文

Teacher2Task:創(chuàng)新的多教師學(xué)習(xí)框架提升人工智能訓(xùn)練效率與精準(zhǔn)性

Teacher2Task是谷歌團(tuán)隊(duì)推出的多教師學(xué)習(xí)框架,引入教師特定的輸入標(biāo)記和重新構(gòu)思訓(xùn)練過程,消除對(duì)手動(dòng)聚合啟發(fā)式方法的需求??蚣懿灰蕾嚲酆蠘?biāo)簽,將訓(xùn)練數(shù)...
閱讀原文

DynaSaur:Adobe創(chuàng)新推出的多功能大語言模型代理框架提升創(chuàng)作效率與智能化體驗(yàn)

DynaSaur是Adobe Research推出的大型語言模型(LLM)代理框架,突破傳統(tǒng)LLM代理系統(tǒng)受限于預(yù)定義動(dòng)作集合的限制??蚣苤С执韯?dòng)態(tài)創(chuàng)建和組合動(dòng)作,基于生成...
閱讀原文

Takin AudioLLM:創(chuàng)新零樣本語音生成模型助力個(gè)性化語音合成體驗(yàn)

Takin AudioLLM是喜馬拉雅Everest團(tuán)隊(duì)推出的一系列高質(zhì)量零樣本語音生成模型,包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型語言模型技術(shù),專...
閱讀原文

AutoTrain:無代碼模型訓(xùn)練平臺(tái)助力輕松構(gòu)建高性能AI應(yīng)用

AutoTrain(AutoTrain Advanced)是Hugging Face推出的開源無代碼平臺(tái),能簡(jiǎn)化最先進(jìn)模型的訓(xùn)練過程。支持用戶無需編寫代碼即可創(chuàng)建、微調(diào)和部署自己的AI模型...
閱讀原文

CAMPHOR:創(chuàng)新端側(cè)小語言模型推動(dòng)多智能體協(xié)作與智能交互的新時(shí)代

CAMPHOR是蘋果團(tuán)隊(duì)推出的端側(cè)小語言模型(SLM)多智能體框架,能提升移動(dòng)設(shè)備的隱私保護(hù)和響應(yīng)速度??蚣芑谠谠O(shè)備本地處理多個(gè)用戶輸入并進(jìn)行個(gè)人上下文推...
閱讀原文

XGrammar:智能化結(jié)構(gòu)化生成引擎提升文本創(chuàng)作效率與質(zhì)量

XGrammar是由陳天奇團(tuán)隊(duì)推出的開源軟件庫,能為大型語言模型(LLM)提供高效、靈活且可移植的結(jié)構(gòu)化數(shù)據(jù)生成能力。基于上下文無關(guān)語法(CFG)定義結(jié)構(gòu),支持...
閱讀原文

Fugatto:英偉達(dá)推出性多功能AI音頻生成模型,支持高質(zhì)量音頻合成與實(shí)時(shí)語音轉(zhuǎn)換

Fugatto是英偉達(dá)(NVIDIA)推出的音頻合成和轉(zhuǎn)換模型,全稱為"Foundational Generative Audio Transformer Opus 1"。模型能根據(jù)文本提示生成音頻或...
閱讀原文

LongRAG:雙視角魯棒檢索框架助力高效精準(zhǔn)信息獲取

LongRAG是清華大學(xué)、中國(guó)科學(xué)院和智譜的研究團(tuán)隊(duì)推出的,面向長(zhǎng)文本問答(LCQA)的雙視角魯棒檢索增強(qiáng)生成(RAG)框架?;诨旌蠙z索器、LLM增強(qiáng)信息提取器、...
閱讀原文

Illustrious:高質(zhì)量動(dòng)漫風(fēng)格圖像生成的創(chuàng)新開源模型

Illustrious是開源的文本到圖像動(dòng)漫圖像生成模型,是Onoma AI Research推出的。基于優(yōu)化批量大小、dropout控制、訓(xùn)練圖像分辨率和多級(jí)標(biāo)題等關(guān)鍵方法,實(shí)現(xiàn)高...
閱讀原文

aisuite:多模型接口整合的開源Python庫助力高效AI應(yīng)用開發(fā)

aisuite是開源的Python庫,吳恩達(dá)(Andrew Ng)發(fā)布的,旨在提供一個(gè)統(tǒng)一的接口來調(diào)用多個(gè)大型語言模型(LLM)服務(wù)。支持包括OpenAI、Anthropic、Azure等在內(nèi)...
閱讀原文

MobA:智能移動(dòng)體引領(lǐng)未來科技的便捷生活

MobA(Mobile Agent)是上海交通大學(xué)團(tuán)隊(duì)推出的新型移動(dòng)智能體,基于多模態(tài)大型語言模型(MLLMs)提升移動(dòng)設(shè)備的自動(dòng)化任務(wù)執(zhí)行能力。MobA采用兩級(jí)架構(gòu):高級(jí)...
閱讀原文

Frames:突破創(chuàng)意界限的AI圖像生成模型全面提升視覺藝術(shù)創(chuàng)作體驗(yàn)

Frames是Runway推出的最新AI圖像生成模型,在風(fēng)格控制和視覺保真度方面取得巨大進(jìn)步。Frames能維持風(fēng)格一致性,支持廣泛的創(chuàng)意探索,為項(xiàng)目建立特定外觀,并...
閱讀原文

SlideChat:智能視覺語言助手助力多模態(tài)交互體驗(yàn)

SlideChat是上海AI實(shí)驗(yàn)室、廈門大學(xué)、華東師范大學(xué)等機(jī)構(gòu)推出的,首個(gè)能理解千兆像素級(jí)別全切片圖像的視覺語言助手。SlideChat能生成詳盡的全切片圖像描述,...
閱讀原文

MCP:Anthropic開源模型上下文協(xié)議的核心優(yōu)勢(shì)與創(chuàng)新特點(diǎn)

MCP(Model Context Protocol,模型上下文協(xié)議)是一個(gè)開放協(xié)議,是Anthropic開源的,能實(shí)現(xiàn)大型語言模型(LLM)應(yīng)用與外部數(shù)據(jù)源和工具之間的無縫集成?;?..
閱讀原文
19596979899146