AI項(xiàng)目和框架

QVQ

QVQ是阿里基于Qwen2-VL-72B構(gòu)建的開(kāi)源多模態(tài)推理模型,結(jié)合視覺(jué)理解和復(fù)雜問(wèn)題解決能力,提升人工智能的認(rèn)知能力。QVQ在視覺(jué)推理任務(wù)中展現(xiàn)出增強(qiáng)的能力,尤...
閱讀原文

Open Notebook

Open Notebook是開(kāi)源、注重隱私的谷歌NotebookLM替代工具,能幫助用戶(hù)管理研究工作流程,生成AI輔助筆記,并與內(nèi)容互動(dòng)。Open Notebook支持多筆記本、多模型...
閱讀原文

PC Agent

PC Agent是上海交通大學(xué)和Generative AI Research Lab (GAIR)聯(lián)合推出的先進(jìn)AI系統(tǒng)。系統(tǒng)基于模擬人類(lèi)認(rèn)知過(guò)程,執(zhí)行如組織研究材料、起草報(bào)告和創(chuàng)建演示文稿...
閱讀原文

Midscene.js

Midscene.js是基于AI技術(shù)的自動(dòng)化SDK,通過(guò)用大型語(yǔ)言模型(LLM)簡(jiǎn)化UI自動(dòng)化測(cè)試中的命令。用戶(hù)用自然語(yǔ)言描述交互步驟或預(yù)期數(shù)據(jù)格式,Midscene.js將執(zhí)行...
閱讀原文

Granite 3.1

Granite 3.1是IBM推出的新一代語(yǔ)言模型,具有強(qiáng)大的性能和更長(zhǎng)的上下文處理能力。Granite 3.1模型家族有 4 種不同的尺寸和 2 種架構(gòu):密集模型2B和8B參數(shù)模型...
閱讀原文

Sketch2Sound

Sketch2Sound是Adobe 研究院和西北大學(xué)推出的AI音頻生成技術(shù),能基于聲音模仿和文本提示生成高品質(zhì)音效。Sketch2Sound從聲音模仿中提取響度、亮度和音高三個(gè)...
閱讀原文

OmniAudio-2.6B

OmniAudio-2.6B是Nexa AI推出的音頻語(yǔ)言模型,專(zhuān)為邊緣部署設(shè)計(jì),能實(shí)現(xiàn)快速且高效的音頻文本處理。OmniAudio-2.6B是具有2.6億參數(shù)的多模態(tài)模型融合Gemma-2-2...
閱讀原文

DreamOmni

DreamOmni 是香港中文大學(xué)、字節(jié)跳動(dòng)和香港科技大學(xué)共同推出的統(tǒng)一圖像生成和編輯模型。模型整合文本到圖像(T2I)生成和多種編輯任務(wù),包括指令式編輯、修復(fù)...
閱讀原文

DisPose:提升動(dòng)畫(huà)質(zhì)量的智能人物圖像控制技術(shù)

DisPose是北京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、清華大學(xué)和香港科技大學(xué)的研究團(tuán)隊(duì)共同推出的,提高人物圖像動(dòng)畫(huà)質(zhì)量的控制技術(shù),基于從骨骼姿態(tài)和參考圖像中提取有效...
閱讀原文

InvSR:高清修復(fù)老舊照片的開(kāi)源超分辨率模型提升細(xì)節(jié)與清晰度

InvSR是創(chuàng)新的圖像超分辨率模型,基于擴(kuò)散模型的逆過(guò)程恢復(fù)高分辨率圖像。用大型預(yù)訓(xùn)練擴(kuò)散模型中豐富的圖像先驗(yàn),改善超分辨率的效果。InvSR的核心在于深度...
閱讀原文

OCTAVE:Hume AI語(yǔ)音語(yǔ)言模型:自然交流與情感智能的完美結(jié)合

OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代語(yǔ)音語(yǔ)言模型,結(jié)合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系統(tǒng)的能力。OCTAV...
閱讀原文

3D-Speaker:多模態(tài)說(shuō)話人識(shí)別技術(shù)的創(chuàng)新突破與應(yīng)用潛力

3D-Speaker是阿里巴巴通義實(shí)驗(yàn)室語(yǔ)音團(tuán)隊(duì)推出的多模態(tài)開(kāi)源項(xiàng)目,基于結(jié)合聲學(xué)、語(yǔ)義、視覺(jué)信息,實(shí)現(xiàn)高精度的說(shuō)話人識(shí)別和語(yǔ)種識(shí)別。3D-Speaker提供工業(yè)級(jí)模...
閱讀原文

LeviTor:創(chuàng)新3D目標(biāo)軌跡控制視頻合成技術(shù)提升視覺(jué)效果與交互體驗(yàn)

LeviTor是南京大學(xué)、螞蟻集團(tuán)、浙江大學(xué)等機(jī)構(gòu)推出的圖像到視頻合成技術(shù),結(jié)合深度信息和K-means聚類(lèi)點(diǎn)控制視頻中3D物體的軌跡,無(wú)需顯式的3D軌跡跟蹤。LeviT...
閱讀原文

OCTAVE

OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代語(yǔ)音語(yǔ)言模型,結(jié)合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系統(tǒng)的能力。OCTAV...
閱讀原文

Univer:智能辦公助手全面提升Word和Excel文檔處理效率

Univer是開(kāi)源的全棧框架,支持創(chuàng)建和編輯電子表格、文檔及幻燈片,為用戶(hù)提供統(tǒng)一且強(qiáng)大的辦公解決方案。Univer能在瀏覽器和Node.js環(huán)境中運(yùn)行,易于集成到各...
閱讀原文
18182838485146