<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了

        AIGC動態4天前更新 算泥
        4 0 0
        圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了

        導讀: 算泥社區,一個集AI大模型開發服務、算法與算力于一體的開源生態,正以前沿技術驅動AI創作邊界。文本到圖像生成領域,在DALL-E、Midjourney、Stable Diffusion等模型的推動下,已達百花齊放之境。然而,如何讓AI生成的圖像擺脫“AI味”,真正貼近人類的審美偏好,一直是行業難題。騰訊混元團隊聯合香港中文大學(深圳)及清華大學深圳國際研究生院的專家,重磅推出“語義相對偏好優化”(SRPO)技術,顯著提升了AI生成圖像的審美、真實感與藝術感,并將訓練時間大幅縮短至十分鐘。這項突破性進展,解決了AI審美學習的計算成本高昂、獎勵模型離線調試繁瑣兩大痛點。

        圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了

        AI圖像生成的審美困境

        近年來,文本到圖像生成技術取得了飛躍式發展。從最初的DALL-E,到如今百花齊放的模型,AI已經能夠根據文本描述創造出令人驚嘆的視覺作品。然而,這些成果往往在技術上達到了“正確”,卻難以觸及人類內心深處的“美”。生成的圖像常常帶有明顯的“AI痕跡”,缺乏人類所追求的自然、逼真與藝術韻味。究其原因,人類的審美標準復雜且主觀,如何將這種“玄學”般的偏好量化并注入AI模型,一直是研究者們面臨的巨大挑戰。傳統的強化學習方法,通過引入“審美裁判”(獎勵模型)來指導AI學習,即AI創作一張圖,裁判打分,好則獎勵,差則懲罰。但這種方式存在兩大頑疾:一是“獎勵黑客”現象,AI為了追求高分,可能鉆評分漏洞,生成表面上分數高但質量低劣的圖像,例如偏愛某種顏色或細節極簡的“光滑”圖像;二是優化范圍受限,強化學習通常只能在生成過程的末端進行微調,對于早期階段的生成軌跡難以干預,這進一步加劇了獎勵黑客問題。此外,現有的獎勵模型往往基于有限的數據和過時的模型訓練,其“審美”判斷帶有固有偏見,難以適應當前生成模型日新月異的發展和日益挑剔的用戶需求,往往需要昂貴的離線微調才能勉強勝任。

        Direct-Align:加速AI圖像生成的“傳送門”

        面對上述挑戰,騰訊混元團隊與合作者們并未退縮,而是選擇正面突破。他們首先推出的法寶是Direct-Align。其核心理念堪稱點睛之筆:摒棄繁瑣的回溯式計算,直接構建一個“傳送門”,允許從生成過程中的任何時間點一步到位地恢復出最終的清晰圖像。這一創新源于擴散模型的一個內在數學特性——在任意噪聲水平\(t\)下,帶噪聲圖像\(x_t\)實際上是原始清晰圖像\(x_0\)與高斯噪聲\(\epsilon_{gt}\)的線性組合。Direct-Align正是基于此洞察,不再依賴多步迭代采樣,而是通過引入真實的噪聲先驗,利用封閉形式的解析解,瞬間完成圖像的恢復。這一技術徹底規避了迭代采樣可能導致的梯度等優化不穩定性問題,使得優化過程極為穩健。更重要的是,Direct-Align能夠從生成軌跡的任何階段進行優化,即使是在噪聲極大的早期階段,也能精準恢復圖像,這意味著可以在整個生成過程中進行優化,而非僅限于最后幾個步驟。為了進一步增強優化穩定性,Direct-Align還引入了一個獎勵聚合框架。它從一張清晰圖像\(x_0\)出發,生成一系列不同噪聲程度的中間狀態,對每個狀態進行“一步恢復”并計算獎勵得分。隨后,這些得分通過帶有衰減折扣因子的方式進行聚合,最后統一進行梯度更新。關鍵的折扣因子能夠賦予早期階段獎勵更高的權重,有效遏制模型在后期階段為了追求分數而產生的“獎勵黑客”行為。

        圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了

        Direct-Align的卓越之處體現在:它實現了在生成過程早期進行優化,這在以往是難以想象的;它擺脫了多步采樣的束縛,極大地提升了計算效率;其優化過程極其穩定,有效避免了梯度;通過全局優化和獎勵聚合,它顯著緩解了獎勵黑客問題。可以說,Direct-Align成功地消除了“計算成本高昂”和“優化范圍狹窄”這兩座橫亙在AI圖像生成道路上的大山。

        SRPO:AI的“高級審美”調校大師

        在Direct-Align奠定的堅實基礎上,真正的王牌——語義相對偏好優化(SRPO)——橫空出世。若Direct-Align解決了“效率”與“范圍”的問題,那么SRPO則直擊“審美”與“控制”這兩個終極難題。其核心創新在于,將抽象的“獎勵信號”轉化為可通過文本精確控制的“偏好信號”。這意味著,用戶可以實時、動態地向AI傳達自己的意圖,而無需依賴昂貴的離線獎勵模型訓練。SRPO的架構看似簡潔,實則巧妙地融合了Direct-Align與獎勵模型。它運用“語義引導偏好”(Semantic Guided Preference)和“語義相對偏好”(Semantic-Relative Preference)兩大機制,實現了對AI審美的精細化。研究團隊發現,文本提示(prompt)是可以縱的。通過在原始提示前添加特定的“控制詞”,例如“一張逼真的照片”,就能夠巧妙地引導獎勵模型的評分偏好。這如同向裁判發出指令:“今天我們側重‘真實感’的評估標準”,裁判便會心領神會地調整其評分邏輯。這一發現具有劃時代的意義,它表明可以通過簡單的文本操作,轉移獎勵的偏好,實現可控的審美引導。然而,僅僅引導還不足以完全解決獎勵模型的固有偏見。例如,即使引導關注“真實感”,如果獎勵模型本身偏愛紅色,它仍可能傾向于給帶有紅色的“真實”照片打高分。為應對此挑戰,“語義相對偏好”機制應運而生。以往的方法可能通過引入多個具有不同偏見的獎勵模型來尋求折衷,但這往往只能獲得平庸的結果。SRPO則另辟蹊徑,它洞察到獎勵模型的偏見主要源于其圖像編碼器。因此,它創造性地提出:使用同一個獎勵模型,針對同一張圖像,生成一對“正向”和“反向”的獎勵信號。具體實現方式是通過提示增強。例如,輸入一個“正向”提示“一張逼真的照片”,和一個“負向”提示“一張卡通畫”,讓獎勵模型對同一張圖進行兩次評分。在優化過程中,模型會努力靠近“逼真”的特征,同時主動規避“卡通”的特征。在這個過程中,兩個信號中都存在的獎勵模型的一般性偏見(如對紅色的偏愛)會因為一正一負而被抵消,而我們真正期望的語義差異(逼真與卡通)則被保留并放大。這種操作堪稱天才之舉!

        更有趣的是,借助Direct-Align的雙向優化能力,SRPO還實現了一種名為“基于反轉的正則化”的創新玩法。在去噪(正向)過程中,模型執行梯度上升,學習好的偏好;而在加噪(反向)過程中,則執行梯度下降,懲罰壞的偏好。通過在不同時間步解耦獎勵項和懲罰項,SRPO進一步增強了優化的魯棒性,使得獎勵黑客無處遁形。SRPO的優勢是顛覆性的:它實現了在線獎勵調整,用戶只需修改提示詞即可指揮AI,告別了繁瑣的微調;通過正負樣本對比,從根本上緩解了獎勵黑客問題;能夠實現對畫面風格、質感的精細化控制。最關鍵的是,它繼承了Direct-Align的高效率,以極低的成本完成了這一重大突破。

        性能實測:數據與人眼的雙重認可

        為了驗證SRPO的強大能力,研究團隊在FLUX.1.dev這一頂級的開源文生圖模型上進行了嚴格的性能測試。他們選用行業公認的HPSv2.1作為獎勵模型,并在人類偏好數據集HPDv2上進行訓練,隨后與ReFL、DRaFT-LV、DanceGRPO等主流在線強化學習方法進行了全方位的對比。評估維度兼顧了自動化指標和人類主觀評價。在自動化評估方面,SRPO在美學分數(Aesthetic Score)和PickScore上均位列第一。尤為驚人的是其訓練效率,僅需5.3個GPU小時(約等于10分鐘),而效果相當的DanceGRPO卻需要480個GPU小時,效率提升了近90倍。人類評估的結果更是令人矚目。在逼真度、美學和總體偏好方面,SRPO實現了斷層式的領先。其逼真度“優秀”率從基線模型的8.2%飆升至38.9%,提升了近五倍;美學“優秀”率從9.8%提升至40.5%;整體偏好“優秀”率則從5.3%提升至29.4%。這意味著,在未增加額外訓練數據的情況下,SRPO系統性、大幅度地提升了大規模擴散模型的逼真度,堪稱前所未有。

        圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了

        團隊還進行了深入的詳細分析,例如在不同獎勵模型(CLIP、PickScore、HPSv2.1)下的表現,發現SRPO的增強效果具有普適性,無論在何種評價標準下都能穩定發揮。他們還證明了在生成過程早期進行優化對于避免獎勵黑客至關重要,僅在后期優化時,被“黑”的概率會顯著增加。最令人興奮的是其精細化的控制能力。通過簡單的“控制詞”,SRPO就能讓模型在“明亮”、“暗黑”、“油畫”、“漫畫”、“賽博朋克”等多種風格之間自如切換。實驗結果表明,在獎勵模型訓練數據現頻率較高的詞匯,如“油畫”,控制效果尤為顯著。對于一些較少見的風格,如“文藝復興”,雖然效果稍弱,但通過組合提示(如“文藝復興風格的油畫”)也能獲得改善。這為未來個性化、定制化圖像生成開辟了廣闊的想象空間。

        圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了圖像生成告別AI味!清華、港中大、騰訊混元聯手推出SRPO新方法,美觀、逼真、藝術感都有了

        盡管SRPO已展現出驚人的實力,研究團隊仍謙虛地指出了其局限性,例如對某些冷門風格的控制力仍有待加強,以及內部工作機制的可解釋性尚需進一步深入研究。SRPO方法的出現,憑借其極致的效率和卓越的質量,將AI從單純的“模仿者”轉變為能夠理解并執行人類復雜審美需求的“藝術家”。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕无码不卡免费视频 | 亚洲精品国产第1页| 亚在线观看免费视频入口| 亚洲日韩中文字幕| 久久久久国色AV免费看图片| 成年免费a级毛片| 青青草原精品国产亚洲av| 日韩中文无码有码免费视频| 久青草国产免费观看| 亚洲综合一区二区精品久久| 国产乱子伦精品免费女| 日本亚洲欧洲免费天堂午夜看片女人员 | 日日摸日日碰夜夜爽亚洲| 亚洲成AV人片在WWW色猫咪| 色婷婷7777免费视频在线观看| 久久精品国产亚洲av天美18| 亚洲成a人片在线观看无码 | 日韩一品在线播放视频一品免费| 国产精品青草视频免费播放| 亚洲最大中文字幕| 亚洲AV之男人的天堂| 亚洲人成免费网站| 一级做a爰片久久毛片免费看 | 黄色视频在线免费观看| 亚洲中文字幕一二三四区| 亚洲亚洲人成综合网络| 免费鲁丝片一级观看| 99精品国产成人a∨免费看| 美女被爆羞羞网站免费| 亚洲国产av美女网站| 亚洲一区二区三区偷拍女厕| 成全影视免费观看大全二| 久久精品私人影院免费看| 色婷婷综合缴情综免费观看 | 玖玖在线免费视频| 青青免费在线视频| 国产精品亚洲综合五月天| 亚洲欧洲一区二区| 国产性爱在线观看亚洲黄色一级片| 免费无码又爽又刺激高潮的视频| 无码午夜成人1000部免费视频|