標簽：多語言支持

Perplexity

Perplexity AI是一款聊天機器人式的搜索引擎，允許用戶用自然語言提出問題，并使用生成式AI技術從各種來源收集獲取信息并給出答案。該AI搜索引擎將人工智能與...

閱讀原文

AI工具

1年前 (2024)

AnyText

AnyText是阿里巴巴智能計算研究院的團隊推出的一個基于擴散的多語言視覺文本生成和編輯模型，專注于在圖像中渲染準確和連貫的文本。AnyText包括兩個主要元素...

閱讀原文

AI工具

1年前 (2024)

OLMo

OLMo（Open Language Model）是由Allen AI（AI2，艾倫AI研究所）開發的一個完全開源開放的大型語言模型（LLM）框架，設計初衷是為了通過開放研究，促進學術界...

閱讀原文

AI工具

1年前 (2024)

MetaGPT

MetaGPT是一個創新的元編程框架，結合了大語言模型和多智能體協作系統，旨在通過模擬人類工作流程來解決復雜問題。該框架的核心在于將標準化操作程序（SOPs）...

閱讀原文

AI工具

1年前 (2024)

Depth Anything

Depth Anything是由來自Tiktok、香港大學和浙江大學的研究人員推出的一個為單目深度估計設計的深度學習模型，旨在處理各種情況下的圖像并估計其深度信息。該...

閱讀原文

AI工具

1年前 (2024)

ConsiStory

ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法，可以實現讓圖像在保持風格和主題不變的情況下，遵循不同的文本...

閱讀原文

AI工具

1年前 (2024)

StarCoder 2

StarCoder 2是由BigCode項目團隊開發的新一代大型代碼語言模型，旨在為代碼生成、編輯和推理任務提供強大的支持。該系列模型在前一代StarCoder模型的基礎上進...

閱讀原文

AI工具

1年前 (2024)

MeloTTS

MeloTTS 是一個由 MyShell AI 開發的開源的高質量多語言文本轉語音（TTS）庫，能夠將文本轉換成自然流暢的語音輸出，支持多種語言。MeloTTS 的語音合成速度非...

閱讀原文

AI工具

1年前 (2024)

UniEdit

UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架，允許用戶在不需要進行模型微調的情況下，對視頻的運動和外觀進行編輯，...

閱讀原文

AI工具

1年前 (2024)

DUSt3R

DUSt3R是由來自芬蘭阿爾托大學和Naver歐洲實驗室的研究人員推出的一個3D重建框架，旨在簡化從任意圖像集合中重建三維場景的過程，而無需事先了解相機校準或視...

閱讀原文

AI工具

1年前 (2024)

ELLA

ELLA（Efficient Large Language Model Adapter，高效的大模型適配器）是由騰訊的研究人員推出的一種新型方法，旨在提升文本到圖像生成模型在處理復雜文本提...

閱讀原文

AI工具

1年前 (2024)

Grok-1

Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型，是一個混合專家（MoE）模型，擁有 3140 億參數，使其成為目前參數量最大的開源大語言...

閱讀原文

AI工具

1年前 (2024)

Open-Sora

Open-Sora是由Colossal-AI團隊開源的視頻生成模型，旨在復現OpenAI的Sora視頻生成產品。Open-Sora同樣基于DiT架構，通過三個階段訓練：大規模圖像預訓練、大...

閱讀原文

AI工具

1年前 (2024)

Mora

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體（AI Agents）框架，專門用于通用視頻生成任務，目標是模擬并擴展OpenAI的Sora視頻生成模型。該框架...

閱讀原文

AI工具

1年前 (2024)

Champ

Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基于3D的將人物圖片轉換為視頻動畫的模型，該方法結合了3D參數化模型（特別是SMPL模型）和潛...

閱讀原文

AI工具

1年前 (2024)

1…37 383940 41…62