AI項目和框架
Midscene.js
Midscene.js是基于AI技術(shù)的自動化SDK,通過用大型語言模型(LLM)簡化UI自動化測試中的命令。用戶用自然語言描述交互步驟或預(yù)期數(shù)據(jù)格式,Midscene.js將執(zhí)行...
Granite 3.1
Granite 3.1是IBM推出的新一代語言模型,具有強大的性能和更長的上下文處理能力。Granite 3.1模型家族有 4 種不同的尺寸和 2 種架構(gòu):密集模型2B和8B參數(shù)模型...
Sketch2Sound
Sketch2Sound是Adobe 研究院和西北大學(xué)推出的AI音頻生成技術(shù),能基于聲音模仿和文本提示生成高品質(zhì)音效。Sketch2Sound從聲音模仿中提取響度、亮度和音高三個...
OmniAudio-2.6B
OmniAudio-2.6B是Nexa AI推出的音頻語言模型,專為邊緣部署設(shè)計,能實現(xiàn)快速且高效的音頻文本處理。OmniAudio-2.6B是具有2.6億參數(shù)的多模態(tài)模型融合Gemma-2-2...
DisPose:提升動畫質(zhì)量的智能人物圖像控制技術(shù)
DisPose是北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和香港科技大學(xué)的研究團隊共同推出的,提高人物圖像動畫質(zhì)量的控制技術(shù),基于從骨骼姿態(tài)和參考圖像中提取有效...
InvSR:高清修復(fù)老舊照片的開源超分辨率模型提升細節(jié)與清晰度
InvSR是創(chuàng)新的圖像超分辨率模型,基于擴散模型的逆過程恢復(fù)高分辨率圖像。用大型預(yù)訓(xùn)練擴散模型中豐富的圖像先驗,改善超分辨率的效果。InvSR的核心在于深度...
OCTAVE:Hume AI語音語言模型:自然交流與情感智能的完美結(jié)合
OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代語音語言模型,結(jié)合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系統(tǒng)的能力。OCTAV...
3D-Speaker:多模態(tài)說話人識別技術(shù)的創(chuàng)新突破與應(yīng)用潛力
3D-Speaker是阿里巴巴通義實驗室語音團隊推出的多模態(tài)開源項目,基于結(jié)合聲學(xué)、語義、視覺信息,實現(xiàn)高精度的說話人識別和語種識別。3D-Speaker提供工業(yè)級模...
LeviTor:創(chuàng)新3D目標(biāo)軌跡控制視頻合成技術(shù)提升視覺效果與交互體驗
LeviTor是南京大學(xué)、螞蟻集團、浙江大學(xué)等機構(gòu)推出的圖像到視頻合成技術(shù),結(jié)合深度信息和K-means聚類點控制視頻中3D物體的軌跡,無需顯式的3D軌跡跟蹤。LeviT...
Univer:智能辦公助手全面提升Word和Excel文檔處理效率
Univer是開源的全??蚣埽С謩?chuàng)建和編輯電子表格、文檔及幻燈片,為用戶提供統(tǒng)一且強大的辦公解決方案。Univer能在瀏覽器和Node.js環(huán)境中運行,易于集成到各...
AgentScope:阿里開源多智能體開發(fā)平臺實現(xiàn)高效協(xié)作與智能決策
AgentScope是阿里巴巴集團開源的多智能體開發(fā)平臺,幫助開發(fā)者輕松構(gòu)建和部署多智能體應(yīng)用。AgentScope提供高易用性、高魯棒性和分布式支持,內(nèi)置多種模型API...
VisionFM:少樣本多疾病診斷的智能眼科AI模型
VisionFM(伏羲慧眼)是多模態(tài)多任務(wù)的視覺基礎(chǔ)模型,專為通用眼科人工智能而設(shè)計。通過預(yù)訓(xùn)練3.4百萬張來自560,457個個體的眼科圖像,覆蓋廣泛的眼科疾病、...
粵公網(wǎng)安備 44011502001135號