MSRA:視覺生成六大技術(shù)問題
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:MSRA:視覺生成六大技術(shù)問題
關(guān)鍵字:模型,圖像,噪聲,任務(wù),損失
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
古紓旸 投稿量子位 | 公眾號(hào) QbitAI文生圖、文生視頻,視覺生成賽道火熱,但仍存在亟需解決的問題。
微軟亞洲研究院研究員古紓旸對(duì)此進(jìn)行了梳理,他認(rèn)為視覺信號(hào)拆分是最本質(zhì)的問題。
生成模型的目標(biāo)是擬合目標(biāo)數(shù)據(jù)分布,然而,目標(biāo)數(shù)據(jù)分布過于復(fù)雜,難以直接擬合。
因此,往往需要將復(fù)雜的信號(hào)做拆分,拆分成多個(gè)簡(jiǎn)單的分布擬合問題,再分別求解。信號(hào)拆分方式的不同產(chǎn)生了不同的生成模型。
此外,針對(duì)一些熱點(diǎn)問題他也展開進(jìn)行了分析,一共六大問題,例如diffusion模型是否是最大似然模型?diffusion模型的scaling law是什么樣的?
以下是部分問題的具體討論。
視覺信號(hào)拆分問題為什么大語言模型能這么成功?
作者認(rèn)為,最本質(zhì)的原因是文本信號(hào)拆分具有“等變性”。
具體來說,對(duì)于一個(gè)文本序列A=x0,x1,x2…語言模型會(huì)根據(jù)位置把P(x0,x1,x2…)的聯(lián)合數(shù)據(jù)分布拆分成多個(gè)條件概率分布擬合問題:
P(x0),P(x1|x0),P(x2|x0,x1)…對(duì)于一個(gè)文本,比如說“我喜歡打籃球”,用自回歸的方式進(jìn)行擬合,那么對(duì)于從“打”回歸“籃球”這個(gè)子任務(wù),和它是文本中的第幾個(gè)詞沒有關(guān)系。
原文鏈接:MSRA:視覺生成六大技術(shù)問題
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破