AI項目和框架

Midscene.js

Midscene.js是基于AI技術(shù)的自動化SDK,通過用大型語言模型(LLM)簡化UI自動化測試中的命令。用戶用自然語言描述交互步驟或預(yù)期數(shù)據(jù)格式,Midscene.js將執(zhí)行...
閱讀原文

Granite 3.1

Granite 3.1是IBM推出的新一代語言模型,具有強大的性能和更長的上下文處理能力。Granite 3.1模型家族有 4 種不同的尺寸和 2 種架構(gòu):密集模型2B和8B參數(shù)模型...
閱讀原文

Sketch2Sound

Sketch2Sound是Adobe 研究院和西北大學(xué)推出的AI音頻生成技術(shù),能基于聲音模仿和文本提示生成高品質(zhì)音效。Sketch2Sound從聲音模仿中提取響度、亮度和音高三個...
閱讀原文

OmniAudio-2.6B

OmniAudio-2.6B是Nexa AI推出的音頻語言模型,專為邊緣部署設(shè)計,能實現(xiàn)快速且高效的音頻文本處理。OmniAudio-2.6B是具有2.6億參數(shù)的多模態(tài)模型融合Gemma-2-2...
閱讀原文

DreamOmni

DreamOmni 是香港中文大學(xué)、字節(jié)跳動和香港科技大學(xué)共同推出的統(tǒng)一圖像生成和編輯模型。模型整合文本到圖像(T2I)生成和多種編輯任務(wù),包括指令式編輯、修復(fù)...
閱讀原文

DisPose:提升動畫質(zhì)量的智能人物圖像控制技術(shù)

DisPose是北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和香港科技大學(xué)的研究團隊共同推出的,提高人物圖像動畫質(zhì)量的控制技術(shù),基于從骨骼姿態(tài)和參考圖像中提取有效...
閱讀原文

InvSR:高清修復(fù)老舊照片的開源超分辨率模型提升細節(jié)與清晰度

InvSR是創(chuàng)新的圖像超分辨率模型,基于擴散模型的逆過程恢復(fù)高分辨率圖像。用大型預(yù)訓(xùn)練擴散模型中豐富的圖像先驗,改善超分辨率的效果。InvSR的核心在于深度...
閱讀原文

OCTAVE:Hume AI語音語言模型:自然交流與情感智能的完美結(jié)合

OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代語音語言模型,結(jié)合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系統(tǒng)的能力。OCTAV...
閱讀原文

3D-Speaker:多模態(tài)說話人識別技術(shù)的創(chuàng)新突破與應(yīng)用潛力

3D-Speaker是阿里巴巴通義實驗室語音團隊推出的多模態(tài)開源項目,基于結(jié)合聲學(xué)、語義、視覺信息,實現(xiàn)高精度的說話人識別和語種識別。3D-Speaker提供工業(yè)級模...
閱讀原文

LeviTor:創(chuàng)新3D目標(biāo)軌跡控制視頻合成技術(shù)提升視覺效果與交互體驗

LeviTor是南京大學(xué)、螞蟻集團、浙江大學(xué)等機構(gòu)推出的圖像到視頻合成技術(shù),結(jié)合深度信息和K-means聚類點控制視頻中3D物體的軌跡,無需顯式的3D軌跡跟蹤。LeviT...
閱讀原文

OCTAVE

OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代語音語言模型,結(jié)合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系統(tǒng)的能力。OCTAV...
閱讀原文

Univer:智能辦公助手全面提升Word和Excel文檔處理效率

Univer是開源的全??蚣埽С謩?chuàng)建和編輯電子表格、文檔及幻燈片,為用戶提供統(tǒng)一且強大的辦公解決方案。Univer能在瀏覽器和Node.js環(huán)境中運行,易于集成到各...
閱讀原文

AgentScope:阿里開源多智能體開發(fā)平臺實現(xiàn)高效協(xié)作與智能決策

AgentScope是阿里巴巴集團開源的多智能體開發(fā)平臺,幫助開發(fā)者輕松構(gòu)建和部署多智能體應(yīng)用。AgentScope提供高易用性、高魯棒性和分布式支持,內(nèi)置多種模型API...
閱讀原文

VisionFM:少樣本多疾病診斷的智能眼科AI模型

VisionFM(伏羲慧眼)是多模態(tài)多任務(wù)的視覺基礎(chǔ)模型,專為通用眼科人工智能而設(shè)計。通過預(yù)訓(xùn)練3.4百萬張來自560,457個個體的眼科圖像,覆蓋廣泛的眼科疾病、...
閱讀原文

InvSR

InvSR是創(chuàng)新的圖像超分辨率模型,基于擴散模型的逆過程恢復(fù)高分辨率圖像。用大型預(yù)訓(xùn)練擴散模型中豐富的圖像先驗,改善超分辨率的效果。InvSR的核心在于深度...
閱讀原文
19192939495156