AIGC動態歡迎閱讀
原標題:Llama也能做圖像生成!港大字節推出開源自回歸文生圖模型,在線體驗已開放
關鍵字:模型,圖像,作者,架構,表征
文章來源:量子位
內容字數:0字
內容摘要:
LlamaGen團隊 投稿量子位 | 公眾號 QbitAI只需Image Tokenizer,Llama也能做圖像生成了,而且效果超過了擴散模型。
來自港大和字節的研究人員,提出了基于自回歸模型Llama的圖像生成方法。
目前該模型已經開源,并在GitHub斬獲了近900顆星標。
擴散模型出現后,取代了自回歸方法,一度成為圖像生成的主流技術路線。
但在ImageNet測試基準上,作者提出的LlamaGen表現超越了LDM、DiT等擴散模型。
作者的這一發現,證明了最原始的自回歸模型架構同樣可以實現極具競爭力的圖像生成性能。
△LlamaGen生圖示例,第一行為class調控生成,第二行為文生圖那么,基于自回歸模型,或者說基于Llama的圖像生成,是如何實現的呢?
用自回歸模型做圖像生成作者介紹,開源社區對自回歸模型做圖像生成的印象大多停留在2020年的VQ-GAN的ImageNet基準上取得的15左右的FID分數。
然而,早在2021年的ViT-VQGAN已經達到了FID 3.0左右的性能,DALL-E 1,Parti等更是在文生圖領域展現了巨大的潛力。
不過這些工作都沒有開源,于是,
原文鏈接:Llama也能做圖像生成!港大字節推出開源自回歸文生圖模型,在線體驗已開放
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...