AIGC動態歡迎閱讀
原標題:在圖像、視頻生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵
文章來源:機器之心
內容字數:6122字
內容摘要:機器之心報道編輯:張倩、陳萍為什么語言模型在視覺生成方面落后于擴散模型?來自谷歌、CMU 的研究表明,tokenizer 是關鍵。大型語言模型(LLM 或 LM)一開始是用來生成語言的,但隨著時間的推移,它們已經能夠生成多種模態的內容,并在音頻、語音、代碼生成、醫療應用、機器人學等領域開始占據主導地位。當然,LM 也能生成圖像和視頻。在此過程中,圖像像素會被視覺 tokenizer 映射為一系列離…
原文鏈接:點此閱讀原文:在圖像、視頻生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...