與1500多支國內外隊伍同臺競技，快手在NeurIPS 2024頂級大賽中上演雙殺

機器之心報道編輯：杜偉、小舟這幾天，學術圈的小伙伴肯定都很關注正在加拿大溫哥華舉辦的機器學習頂會——NeurIPS 2024。本屆會議于今日落下帷幕，共接收 15671 篇有效論文投稿，比去年增長了 27%，最終接收率為 25.8%。本屆會議上同樣值得關注的，還有一項重要的賽事，它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」（大規模拍賣中的自動出價），旨在探索當前火熱的強化學習、生成模型、Agent 等前沿 AI 技術在廣告投放以及決策智能場景的應用。該賽事不僅是業內首次廣告出價比賽，也是 NeurIPS 2024 唯一的搜廣推比賽，可以說規格和含金量都很高，也因此收獲了超高的熱度，吸引超過 1500 支隊伍參賽，其中不乏國內外知名高校和公司、專業研究機構以及決策智能領域知名團隊的身影。賽事主頁：https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/簡單來說，在比賽中，參賽者扮演自動出價 Agent（即廣告主），在大規模拍賣環境下與其他 47 個競爭對手對抗，作出有效的出價決策，并在滿足投放需求的情況下幫助廣告主最大化投放效果。從①到⑤為典型廣告平臺的自動出價全流程。此次比賽分為了兩個賽道，分別是通用賽道和 AIGB（AI-Generated Bidding）賽道。兩個賽道側重點各有不同，對參賽隊伍提出了不同的技術要求，其中：通用賽道關注不確定環境中的自動出價，需要解決數據稀疏性、轉化方差、多坑等不確定問題；AIGB 賽道使用生成模型來學習自動出價 Agent，需要采用生成模型來端到端輸出決策。算起來，自今年 6 月底注冊階段開始，經過了近半年的激烈角逐，比賽終于決出了勝負！快手商業化算法團隊（簡稱快手團隊）從千余支隊伍中脫穎而出，包攬了兩個賽道的第一名，成為本次賽事最大贏家。奪冠方案自動出價服務是國內外各廣告平臺的基礎組成模塊，有眾多的業界實踐和研究工作。此次比賽任務基于一個簡化版本的 Target CPA，并將 CPA 定義為平均轉化成本。參賽者需要設計和實現一個自動出價 Agent。給定廣告主 j 的預算 B 和目標 CPA C，該自動出價 Agent 在一個廣告投放周期內對 N 個展現機會進行競價，目標是在保證最終實現的 CPA 不大于 C 的前提下，最大化總轉化量。具體來說，所有展現機會按順序到達，出價 Agent 依次對每個機會進行競價。對于每個機會 i：出價：自動出價 Agent 出價，同時其他競爭廣告主利用他們的單獨的出價 Agent 出價，來競爭 3 個廣告坑位。其中，出價會依賴轉化概率值，定義為廣告主 j 的廣告曝光給用戶時的轉化動作概率，定位為預估的標準差。拍賣：廣告平臺運行 GSP（Generalized Second Price）拍賣機制，按照出價從高到低依次分配 3 個到坑位上，獲勝者按照下一位出價進行扣費。拍賣結果會返回給出價 Agent，其中表示是否獲勝，表示贏得的廣告坑位，表示需要支付的費用。不僅取決于還取決于。展現：廣告坑位是否曝光給用戶由隨機變量決定，其中是廣告坑位的曝光概率。實際是否發生轉化也是一個隨機變量，定義為，其中，為預估標準差。如果廣告坑位未曝光，廣告主無需支付費用，轉化也不會發生。因此，這個任務可以形式化如下：最終實現的 CPA 定義為：自動出價 Agent 的目標是在滿足廣告主設定的 CPA 約束情況下最大化轉化量。具體的評估指標定義如下：其中，對應優化目標最大化轉化，在超成本即實際 CPA > C 時，P (CPA; C) < 1，會對轉化進行降權。總體來說，這項比賽不僅可以促進決策技術的突破，而且還將給行業應用場景帶來啟發。我們來看下快手是如何在通用和 AIGB 兩個賽道拔得頭籌的。通用賽道現實世界中，復雜的廣告拍賣環境往往會帶來額外的挑戰，特別是不確定性。因此，通用賽道要求參賽者在大規模拍賣中做出有效競價決策，需要有效感知競爭對手策略的變化。參賽者必須考慮客戶到達的隨機性、轉化預測的方差、數據稀疏性和其他因素。這就需要在離線規劃最優解的基礎上，自適應在線競價過程，以獲得更優出價序列。快手團隊創新地提出了一種基于強化學習的在線探索技術方案，巧妙地解決了該問題。首先，考慮多坑特點，快手團隊基于競勝率以及多坑的曝光率將問題建模成約束優化問題，并基于該問題的對偶問題求解出離線最優出價系數，得到最優出價形式。然后，快手團隊建模出價系數和未來預期消耗以及預期轉化的關系，并且為了解決不確定性問題，在建模時綜合考慮了稠密的先驗轉化以及稀疏的后驗轉化。最后，為了適應在線環境的不確定性，快手團隊提出基于強化學習的在線搜索方案：首先搭建一個競價模擬器環境，能夠學習不同出價對應的序列長期價值；然后基于離線最優出價系數劃定一個區間進行采樣，最后挑選出價值最優的動作（action）作為最終的出價系數。結合最優化理論和強化學習在線搜索。AIGB 賽道相比于通用賽道，AIGB 賽道面向一種全新的迭代范式。由于生成模型，包括擴散模型（Diffusion Model）、決策 Transformer（Decision Transformer）、大型語言模型（LLM），在語言、視覺等領域體現出算力和數據的 scaling law，并且在決策任務中表現出了巨大的潛力，因此 AIGB 賽道要求采用生成模型，將自動出價建模為生成式序列決策問題，探索生成模型用于出價問題的機會。在 AIGB 賽道，一個首先要解決的問題是選擇模型架構。序列決策領域有擴散模型和決策 Transformer 兩大類。參賽者面臨在競爭中做出長期戰略決策的關鍵挑戰，眾多競爭對手的策略會快速發生變化，以 DiffBid 為代表的擴散模型方案存在兩個不足：優化目標對齊能力弱：一次性生成一條序列，序列之間約束較弱，甚至學不出剩余預算單調遞減這一性質；訓練效率低：是兩階段范式，首先預測狀態序列 {s_{t+1}，s_{t+2}，…，s_{T}}，然后根據 {s_t，s_{t+1}} 預測最終出價，訓練較為復雜。而決策 Transformer 建模長期價值 return to go（RTG），直接預測出價，相比于 DiffBid 具有和目標對齊能力更強、訓練更簡單的優勢。然而，快手團隊發現：決策 Transformer 模型的學習機制是模仿學習，難以學習到超出數據集的出價策略。因此，他們考慮在策略學習時探索更優的出價系數，增強模型學習，但簡單的探索很容易導致離線強化學習的分布外（Out Of Distribution，OOD）問題。為了解決這個問題，快手團隊從決策 Transformer 的本質出發，即決策 Transformer 根據 RTG 生成對應的出價系數，下一時刻的高 RTG 出價系數（長期價值）需要有更大的生成概率。有了這個關鍵認知，快手團隊提出一種 RTG 引導的出價系數探索方案——Decision Transformer with RTG-driven Explorations，保證探索性的同時兼顧安全性，從而增強模型學習。Decision Transformer with RTG-driven Explorations簡單來說，Decision Transformer with RTG-driven Explorations 方案主要包括如下步驟：首先訓練模型預估下一時刻的 RTG，具備評估探索的出價系數好壞的能力。每個 timestep 額外預測一個基于原始出價系數探索新的出價系數，鼓勵模型探索下一時刻 RTG 更高的出價系數。模型朝著原始出價系數和探索到的出價系數中更優的出價系數更新，避免 OOD 問題。廣告收入提升 5%+基于 RL 的自動出價在業務側開始發力說起來，廣告投放的目的其實很簡單，以企業或商家為主的廣告主選擇合適的廣告平臺，將廣告傳遞給受眾（即消費者）。但實現起來需要考慮的因素就多了，比如針對同一廣告位展開競爭出價、投放預算與實際投放成本、投放收益等。這就要求廣告主進行全方位權衡，其中動態調整出價是控制廣告成本和提升廣告收入的關鍵一環。而作為廣告投放平臺，快手也在廣告推薦、預算分配策略、效果預估以及尤為重要的自動出價調整等層面進行算法上的優化升級，更好地服務于客戶的同時增加自身廣告收入。從縱向來看，快手的出價算法經歷了從 PID、MPC 到強化學習（RL）的「三代」演化路徑，技術上的持續迭代更新帶來了廣告投放效果的節節提升。第一代出價算法 PID（被動反饋式控制）包含了三個關鍵的控制參數：比例（Proportional）、積分（Integral）和微分（Derivative）。該算法可以通過動態調整出價來很好地將廣告平均成交價穩定在目標成交價，但不足的點在于對未來消耗和預期消耗沒有預估和規劃。第二代出價算法 MPC，它的全稱為 Model Predictive Control，引入了對未來的預測，在對出價與未來消耗、成本的關系進行建模的基礎上可以做出更精準的出價規劃。不過，該算法建模能力較弱，也無法做出多步長期決策。到了強化學習階段，包括出價、成本、用戶行為在內各個變量的建模能力大大加強，并對序列整體長期價值進行優化。通過不斷與環境互動，強化學習算法可以根據實時市場環境變化調整出價，并能夠預估長期廣告效果以做出更精確的出價決策。相較于 PID、MPC，強化學習算法在動態決策、處理復雜環境與競爭行為、多目標優化、應對不確定性與數據稀缺、長期收益優化等多個方面都占優。此外，面對 OOD 問題，快手在算法選型上采用了離線強化學習算法，緩解了訓練數據集不足帶來的問題，可以更穩健地進行決策，降低策略失效的風險；快手又搭建離線模擬環境，優化出價策略并驗證效果，確保在線策略的安全性、有效性和穩健性，降低高風險決策可能造成的損失。目前，基于強化學習的自動出價模型已經在快手廣告系統全量推全，在成本達標不降約束下取得了 5% 以上的廣告收入提升。消融實驗也證明了：收益來自于模型泛化以及強化學習最大化序列價值建模。通過此次大賽，快手看到生成模型（如 Decision Transformer）在廣告出價場景中的應用潛力。雖然相較于強化學習在最大化序列整體價值方面存在短板，但對序列數據的擬合能力更強，因此二者的有效結合可能是下一代更強出價模型的演化方向。同時，快手也暢想借鑒 o1 思想，通過 Monte-Carlo Tree Search（MCTS）技術搜索不同出價序列，挑選出最優路徑，在多輪決策和推理過程中優化出價策略。奪冠背后是 AI 技術的厚積薄發此次 NeurIPS 2024 大賽，真正詮釋了快手商業化算法團隊的 AI 技術積累以及在實際業務中經受考驗的信心。從確定參賽、前期準備，到練習輪（Practice Round）、再到正式比賽（Official Round），參賽成員在幾個月的時間里，攻克了不少的難關，這才有了最終的雙賽道奪冠。參賽成員來自清華大學、香港中文大學、香港城市大學、南洋理工大學等國內外名校。在談到此次最大的收獲時，他們表示對幾類出價算法（包括最優化理論、強化學習和生成模型）的優劣有了定性和定量的分析，并對未來出價技術的演進做出清晰的判斷。而且，此次比賽提出的創新點在快手的廣告業務中也得到了初步驗證。據了解，作為快手核心算法部門，商業化算法團隊負責快手國內及海外多場景的變現算法研發，著力構建領先的廣告變現算法，通過算法驅動商業營銷增長，優化用戶和客戶體驗。團隊依托快手實際業務問題，產出頂會論文覆蓋 KDD、ICLR、NeurIPS、CVPR 等多個領域的國際會議，還先后斬獲 CIKM Best Paper、SIGIR Best Paper 提名獎、錢偉長中文信息處理科學技術獎一等獎。在 AI 技術層面的硬實力，是他們此次奪冠的最大底氣。作為一家以人工智能為核心驅動和技術依托的科技公司，快手已經看到了以技術為引擎、輔以算法在推動業績增長方面的巨大價值。未來，快手將繼續探索強化學習、生成模型等 AI 技術在廣告出價以及更廣泛業務場景的落地。屆時又會帶來哪些驚喜，我們拭目以待。?THE END轉載請聯系本公眾號獲得授權投稿或尋求報道：liyazhou@jiqizhixin.com

閱讀原文