DiffusionGPT
DiffusionGPT是由來自字節跳動與中山大學的研究人員推出的一個開源的大模型(LLM)驅動的文本到圖像生成系統,旨在解決文生圖領域無法處理不同的輸入或者僅限...
Depth Anything
Depth Anything是由來自Tiktok、香港大學和浙江大學的研究人員推出的一個為單目深度估計設計的深度學習模型,旨在處理各種情況下的圖像并估計其深度信息。該...
Stable Diffusion 3
Stable Diffusion 3 是由 Stability AI 開發的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過文本提示生成高質量的圖像。...
ConsiStory
ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法,可以實現讓圖像在保持風格和主題不變的情況下,遵循不同的文本...
ScreenAgent
ScreenAgent是一個由吉林大學人工智能學院的研究團隊開發的計算機控制智能體,該智能體是基于視覺語言模型(VLM)構建的,能夠與真實計算機屏幕進行交互。Scr...
GPT-SoVITS
GPT-SoVITS是一個開源的聲音克隆項目,該語音合成工具結合了GPT模型和SoVITS變聲器技術,僅需通過少量的樣本數據實現高質量的語音克隆和文本到語音轉換。該工...
Mistral Large
Mistral Large是由法國人工智能公司Mistral AI開發的一款先進的大型語言模型(LLM),具備頂級的推理能力,能夠處理復雜的多語言推理任務,包括文本理解、轉...