標簽:多語言支持

OLMo

OLMo(Open Language Model)是由Allen AI(AI2,艾倫AI研究所)開發的一個完全開源開放的大型語言模型(LLM)框架,設計初衷是為了通過開放研究,促進學術界...
閱讀原文

MetaGPT

MetaGPT是一個創新的元編程框架,結合了大語言模型和多智能體協作系統,旨在通過模擬人類工作流程來解決復雜問題。該框架的核心在于將標準化操作程序(SOPs)...
閱讀原文

Depth Anything

Depth Anything是由來自Tiktok、香港大學和浙江大學的研究人員推出的一個為單目深度估計設計的深度學習模型,旨在處理各種情況下的圖像并估計其深度信息。該...
閱讀原文

ConsiStory

ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法,可以實現讓圖像在保持風格和主題不變的情況下,遵循不同的文本...
閱讀原文

StarCoder 2

StarCoder 2是由BigCode項目團隊開發的新一代大型代碼語言模型,旨在為代碼生成、編輯和推理任務提供強大的支持。該系列模型在前一代StarCoder模型的基礎上進...
閱讀原文

MeloTTS

MeloTTS 是一個由 MyShell AI 開發的開源的高質量多語言文本轉語音(TTS)庫,能夠將文本轉換成自然流暢的語音輸出,支持多種語言。MeloTTS 的語音合成速度非...
閱讀原文

UniEdit

UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和外觀進行編輯,...
閱讀原文

DUSt3R

DUSt3R是由來自芬蘭阿爾托大學和Naver歐洲實驗室的研究人員推出的一個3D重建框架,旨在簡化從任意圖像集合中重建三維場景的過程,而無需事先了解相機校準或視...
閱讀原文

ELLA

ELLA(Efficient Large Language Model Adapter,高效的大模型適配器)是由騰訊的研究人員推出的一種新型方法,旨在提升文本到圖像生成模型在處理復雜文本提...
閱讀原文

Grok-1

Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型,是一個混合專家(MoE)模型,擁有 3140 億參數,使其成為目前參數量最大的開源大語言...
閱讀原文

Open-Sora

Open-Sora是由Colossal-AI團隊開源的視頻生成模型,旨在復現OpenAI的Sora視頻生成產品。Open-Sora同樣基于DiT架構,通過三個階段訓練:大規模圖像預訓練、大...
閱讀原文

Mora

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體(AI Agents)框架,專門用于通用視頻生成任務,目標是模擬并擴展OpenAI的Sora視頻生成模型。該框架...
閱讀原文

Champ

Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基于3D的將人物圖片轉換為視頻動畫的模型,該方法結合了3D參數化模型(特別是SMPL模型)和潛...
閱讀原文

DreaMoving

DreaMoving是一個基于擴散模型的人類視頻生成框架,由阿里巴巴集團的研究團隊開發。DreaMoving通過視頻控制網絡和內容引導器實現對人物動作和外觀的精確控制...
閱讀原文

CodeGemma

CodeGemma是由Google發布的專注于代碼生成和理解的大型語言模型,該系列包含三種不同規模的模型,分別是2B預訓練模型、7B預訓練模型和7B指令微調模型,旨在提...
閱讀原文
1373839404161