AI項目和框架

清華開源的雙臂機器人擴散基礎(chǔ)模型

RDT(Robotics Diffusion Transformer)是清華大學AI研究院TSAIL團隊推出的全球最大的雙臂機器人操作任務(wù)擴散基礎(chǔ)模型。RDT具備十億參數(shù)量,能在無需人類操控...
閱讀原文

阿里開源的語音生成大模型

CosyVoice 2.0 是阿里巴巴通義實驗室推出的CosyVoice語音生成大模型升級版,模型用有限標量量化技術(shù)提高碼本利用率,簡化文本-語音語言模型架構(gòu),推出塊感知...
閱讀原文

無問芯穹開源的端側(cè)全模態(tài)理解模型

Megrez-3B-Omni是無問芯穹推出的全球首個端側(cè)全模態(tài)理解開源模型,能處理圖像、音頻和文本三種模態(tài)數(shù)據(jù)。Megrez-3B-Omni在多個主流測試集上展現(xiàn)出超越34B模型...
閱讀原文

無需微調(diào)的推理框架,提升擴散模型生成能力首次實現(xiàn)8K分辨率圖像

FreeScale是南洋理工大學、阿里巴巴集團和復(fù)旦大學推出無需微調(diào)的推理框架,提升預(yù)訓(xùn)練擴散模型生成高分辨率圖像和視頻的能力。FreeScale基于處理和融合不同...
閱讀原文

西工大聯(lián)合微軟和香港大學推出的說唱樂生成模型

Freestyler是西北工業(yè)大學計算機科學學院音頻、語音與語言處理小組(ASLP@NPU)、微軟及香港中文大學深圳研究院大數(shù)據(jù)研究所共同推出的說唱樂生成模型,能直...
閱讀原文

Snap聯(lián)合港科大等機構(gòu)推出的移動端文生圖模型

SnapGen是Snap Inc、香港科技大學、墨爾本大學等機構(gòu)聯(lián)合推出的文本到圖像(T2I)擴散模型,能在移動設(shè)備上快速生成高分辨率(1024x1024像素)的圖像,且只需...
閱讀原文

kimi推出的 k1 系列強化學習模型

k1 視覺思考模型是kimi推出的k1系列強化學習AI模型,原生支持端到端圖像理解和思維鏈技術(shù),將能力擴展到數(shù)學之外的更多基礎(chǔ)科學領(lǐng)域。k1模型在圖像理解、數(shù)學...
閱讀原文

360 推出國產(chǎn)自研 AI 大模型,多項評測優(yōu)于GPT-4o

360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有顯著提升,特別是在數(shù)學和邏輯推理任務(wù)上表現(xiàn)出色。模型通過合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練和“慢思考”范式實...
閱讀原文

騰訊微信推出的多模態(tài)大模型

POINTS 1.5 是騰訊微信發(fā)布的多模態(tài)大模型,是POINTS 1.0的升級版本。 模型繼續(xù)沿用了POINTS 1.0中的LLaVA架構(gòu),由一個視覺編碼器、一個投影器和一個大型語言...
閱讀原文

Step-1o:國內(nèi)首個千億參數(shù)端到端語音大模型震撼發(fā)布,性提升語音識別與合成能力

Step-1o是階躍星辰推出的國內(nèi)首個千億參數(shù)端到端語音大模型。模型支持語音、文本等混合形式的輸入和輸出,可以快速反應(yīng)并隨時打斷,提供最便捷的互動體驗;同...
閱讀原文

Insight-V:多模態(tài)模型提升長鏈視覺推理能力的創(chuàng)新解決方案

Insight-V是南洋理工大學、騰訊公司和清華大學的研究者們共同推出的多模態(tài)模型,能提升多模態(tài)大型語言模型在長鏈視覺推理方面的能力。基于可擴展的數(shù)據(jù)生成流...
閱讀原文

SVDQuant:高效擴散模型后訓(xùn)練量化技術(shù)提升AI性能與推理速度

SVDQuant是MIT研究團隊推出的后訓(xùn)練量化技術(shù),針對擴散模型,將模型的權(quán)重和激活值量化至4位,減少內(nèi)存占用加速推理過程。SVDQuant引入高精度的低秩分支吸收...
閱讀原文

Meta 推出控制數(shù)字智能體動作的人工智能模型

Meta Motivo 是 Meta 公司推出的AI模型,能提升元宇宙體驗的真實性。Meta Motivo基于控制虛擬人形智能體的全身動作,模擬人類行為,增強用戶互動。模型采用無...
閱讀原文

微軟推出的14B參數(shù)小語言模型,擅長數(shù)學等領(lǐng)域的復(fù)雜推理

Phi-4是微軟推出的14億參數(shù)小型語言模型,在數(shù)學等領(lǐng)域的復(fù)雜推理以及傳統(tǒng)語言處理方面表現(xiàn)出色。Phi-4用數(shù)據(jù)質(zhì)量為核心訓(xùn)練重點,大量融入合成數(shù)據(jù),提升模...
閱讀原文

AI文本引導(dǎo)圖像編輯框架,0.23秒內(nèi)實現(xiàn)高質(zhì)量的圖像編輯

SwiftEdit是由VinAI Research團隊推出的文本引導(dǎo)的圖像編輯工具,基于創(chuàng)新的一步擴散技術(shù),能在0.23秒內(nèi)實現(xiàn)快速且高質(zhì)量的圖像編輯。工具的核心優(yōu)勢在于一步...
閱讀原文
18687888990146