谷歌 AlphaChip 論文再被質疑，DeepMind 駁斥都沒做與訓練，順帶還揪出了“內鬼”？

作者 | Anna Goldie、Azalia Mirhoseini、Jeff Dean
譯者 | 核子可樂
策劃 | 褚杏娟 2020 年，DeepMind 發布了一種能夠生成超越人類能力的深度強化學習芯片布局設計方法，隨后在《自然》雜志上發表了該方法，并通過 GitHub 開源了相關成果。AlphaChip 項目激發了芯片設計 AI 領域的大量后續工作，并已在 Alphabet 最先進的芯片中得到應用，同時得到外部芯片制造商的支持和擴展。不過之后，業內也持續有對 AlphaChip 的質疑。在 2024 年 11 月的《ACM 通訊》雜志上，Synopsys 架構師 Igor Markov 也發表了對三篇論文的元分析，主要包括 AlphaChip 原論文、Cheng 等人投稿到 ISPD 的論文以及 Markov 未發表的論文，總結了人們對 AlphaChip 的各種質疑。始末如下：2020 年 4 月：發布 AlphaChip 《自然》論文的 arXiv 預印本。2020 年 8 月：在 TPU v5e 中流片了 10 種由 AlphaChip 生成的布局。2021 年 6 月：在《自然》雜志上發表論文。2021 年 9 月：在 TPU v5p 中流片了 15 種由 AlphaChip 生成的布局。2022 年 1 月至 2022 年 7 月：在確保遵守出口管制限制并消除內部依賴關系之后，DeepMind 開源了 AlphaChip。期間谷歌中另一支團隊復現了 AlphaChip 在《自然》雜志上所發表論文中的結果。2022 年 2 月：谷歌內部的委員會拒絕發表 Markov 等人的論文，因為數據并不支持其主張和結論。2022 年 10 月：Trillium（最新發布的 TPU）中流片了 25 種由 AlphaChip 生成的布局。2023 年 2 月：Cheng 等人在 arXiv 上發帖，聲稱對 AlphaChip 的方法進行了“大規模重新實現”。2023 年 6 月：Markov 在 arXiv 上發布了他的“元分析”預印本論文。2023 年 9 月：《自然》雜志發布編者注，稱他們正在調查 DeepMind 的論文，并啟動了第二輪同行評審流程。2024 年 3 月：谷歌 Axion 處理器（基于 Arm 架構的 CPU）采用了 7 種由 AlphaChip 生成的布局。2024 年 4 月：《自然》雜志完成了調查與出版后審查，并完全支持 DeepMind 的成果，結論是“最好的解決方式是以附錄形式發布論文更新。”2024 年 9 月：聯發科高級副總裁宣布，他們擴展了 AlphaChip 以加速其最先進芯片的開發。2024 年 11 月：Markov 重新發表了他的“元分析”文章，但此前在《自然》雜志的調查和二次同行評審過程中，他提出的擔憂被發現毫無根據。谷歌 DeepMind 三位高級研究員 Anna Goldie、Azalia Mirhoseini 和 Jeff Dean 聯合發文，針對上述論文提出的質疑做出了回應。DeepMind 指出，Cheng 等人受邀發表的 ISPD 論文沒有遵循標準的機器學習實踐，其中采用的強化學習方法與實驗設置同 AlphaChip 在《自然》論文中的描述存在很大差異。此外，ISPD 的受邀論文未經同行評審。“元分析”論文是一份未發表的 PDF，未列出作者名單，文章描述稱其為“谷歌二號團隊”進行的“單獨評估”，但實際上是由 Markov 本人參與并共同撰寫，且這一事實在文章中并未披露。這篇文章并不符合谷歌的出版標準。2022 年，谷歌委員會對其進行了審查，認定“草稿中的主張和結論并未得到實驗科學的支持”，且“由于 AlphaChip 在其原始數據集上的結果確實可復現”，因此 [Markov 等人] 的強化學習評估結果受到質疑。DeepMind 向該委員會提供了一行腳本，該腳本生成的強化學習結果明顯優于 Markov 等人報告的結果，也優于他們“更強”的模擬退火基準性能。DeepMind 三人稱仍不清楚 Markov 及其他聯合作者如何得出論文中的數字。Markov 的“元分析”也讓 DeepMind 產生了新的擔憂，即谷歌內部存在一位“告密者”。但這位“告密者”向谷歌調查員承認，他并無確切理由懷疑 AlphaChip 論文存在欺詐行為：他曾表示懷疑 Goldie 和 Mirhoseini 的研究成果中存在欺詐行為，但表示沒有證據支持他的這種懷疑。“在他的‘元分析’中，Markov 在沒有證據的情況下對 DeepMind 實際上并不存在的‘欺詐與學術不端行為’做出了瘋狂推測。Markov 的大部分批評方式可以總結為：在他看來，DeepMind 的方法不應該起效，因此一定不會起效，而任何指向相反結論的證據都屬于欺詐。《自然》雜志調查了 Markov 提出的質疑，發現其完全沒有根據，并在調查結束后發表一份附錄來為我們的工作正名。”DeepMind 表示。Markov 指出，“在這篇論文中，我們發現機器學習中存在各種可疑的做法，包括不可復現的研究實踐、刻意挑選結果、誤報以及可能的數據污染（泄漏）。”對此，DeepMind 表示：我們不存在任何此類行為，也沒有任何其他形式的學術不端舉動，Markov 亦沒有為這些指控提供任何證據。Markov 在論文中沒有對所謂“刻意挑選結果”做出任何具體描述，更遑論列舉切實證據。他亦沒有對所謂“誤報”做出明確解釋，或者提供證據。文中沒有提供任何數據污染（泄漏）的證據，只表示這種情形可能有助于獲得更好的研究結果。這些指控當中，相當一部分在正文中根本見不到，卻在“結論”部分突然冒了出來。順帶一提，Cheng 等人在腳注部分也提到，在其針對主數據表的 6 個測試案例中，RePlAce 在 2 項測試中無法得出任何結果。DeepMind 表示，Markov 在他的“元分析”文章中完全沒有提及他本人就是這兩項“單獨評估”之一的作者。他還在參考文獻部分的論文作者中省略了自己的名字，只鏈接到一份匿名 PDF。當在 LinkedIn 上被問及時，Markov 先是承認了自己的作者身份，但后來又刪除了該帖子。Markov 也沒有披露他在 Synopsys 公司擔任高級職務的情況，該公司授權發布多種與 DeepMind 開源方案相競爭的商業工具。“請注意，Markov 的引文與我們的論文無關，這可能誤導讀者認為原始文章為其觀點提供了佐證。”DeepMind 進一步表示，“為了詆毀我們的 TPU 部署，Markov 還暗示谷歌是在故意‘護犢子’，即允許在 TPU 中使用劣質的 AlphaCip 生成布局來支持我們的研究發現。這既不符合事實，也十分荒謬。谷歌永遠更關心 TPU 設計的效率——畢竟這是一個耗資數十億美元的項目，也是 Google Cloud 以及多個 AI 項目的核心，重要程度遠超一篇研究論文。”DeepMind 總結道，簡而言之，Markov 的論文未包含原始數據，僅僅是對兩篇論文的“元分析”。第一篇論文未列出作者名單（盡管 Markov 本人就是作者之一）且從未發表過，提出的主張既沒有科學數據支持也無法復現。第二篇由 Cheng 等人發表的論文，是 Markov“元分析”中唯一的實質性內容，因此我們在后文中將主要討論此文聲稱在復現我們方法時遇到的重要問題。“事實上，我們投入了很長時間才讓 TPU 團隊對我們的成果建立起足夠的信任，讓他們使用我們的布局。盡管 AlphaChip 在指標層面的表現已經超越了人類專家，但我們理解 TPU 團隊的擔憂——他們的工作是按時交付 TPU 芯片，并保證成果盡可能高效可靠，因此不想承擔任何非必要的風險。AlphaChip 已被部署在 Alphabet 的其他硬件當中，但屬于商業機密因此目前無法披露。”DeepMind 研究員稱。下面是 DeepMind 詳細指出的質疑論文中存在的問題。
Cheng 等人在成果復現過程中的錯誤
Cheng 等人聲稱在新的測試用例上，將 DeepMind 的方法與其他方法進行了比較。DeepMind 研究院指出，Cheng 等人并未嚴格按照《自然》雜志上描述的方式運行成果，因此得到的結果自然也相去甚遠。DeepMind 整理了他們在復現過程中的 5 個主要錯誤：沒有預先訓練強化學習方法。從先前經驗中學習的能力是 DeepMind 基于學習方法的主要優勢，而將其消除本質上就是在評估一種完全不同且質量更差的方法。預訓練也是 Gemini 和 ChatGPT 等大語言模型獲取強大 AI 生成能力的前提（「GPT」中的「P」就代表「預訓練」）。使用的計算資源低了一個數量級：強化學習經驗收集器僅相當于原始論文的二十分之一（26 個，《自然》論文中為 512 個），GPU 減少至一半（8 個，《自然》論文中為 16 個）。未將模型訓練到收斂。訓練到收斂是機器學習領域的標準實踐，因為這樣才能保證性能穩定。在不具代表性且不可重復的基準上進行評估。Cheng 等人的基準采用更舊且尺寸更大的制程節點（45 納米與 12 納米，《自然》論文中為 7 納米以下），而且從物理設計角度來看存在很大差異。此外，作者無法或不愿公布其主數據表中復現結果所使用的綜合網表。對 DeepMind 的方法進行了“大規模重新實現”，但這可能會引發錯誤。
強化學習方法沒有經過預訓練 AlphaChip 是一種基于學習的方法，意味著隨著其解決更多芯片布局問題實例，它也會變得更快、更好。這種改進是通過預訓練實現的，預訓練包括在運行保留的測試用例（測試數據）之前先在“練習”布局塊（訓練數據）上接受訓練。訓練數據集越大，該方法在布局設計方面的表現就越好。Cheng 等人根本沒有進行過預訓練（即沒有訓練數據），這意味著強化學習代理之前從未接觸過芯片設計，必須從頭學習如何針對各個測試用例進行布局。這消除了 DeepMind 方法的關鍵優勢，即從先前經驗中學習的能力。與其他知名的強化學習用例類似，這就像評估一個之前從未接觸過圍棋比賽的 AlphaGo 版本（而非經過過數百萬場對弈預訓練的版本），然后得出結論說 AlphaGo 不擅長圍棋。DeepMind 在《自然》論文中詳細討論了預訓練的重要性（例如「預訓練」一詞出現了 37 次），并通過經驗證明了其影響。例如，《自然》圖四（在本文中為圖三）顯示預訓練可以提高布局質量和收斂速度。在開源 Ariane RISC_V CPU 上，未經預訓練的強化學習策略需要 48 個小時才能達到預訓練模型在 6 小時內所產生的結果。正如 DeepMind 在《自然》雜志上所發表論文中所述，DeepMind 為了獲取主數據表中的結果進行了 48 小時的預訓練，而 Cheng 等人的預訓練時長為 0 小時。在 Cheng 等人的論文發表之前，DeepMind 與其中作者的最后一次溝通是在 2022 年 8 月。當時 DeepMind 與對方聯系，并分享了 DeepMind 的最新消息。相比之下，在《自然》雜志上發表之前，DeepMind 與 Cheng 等人的高級作者 Andrew Kahng 進行了廣泛溝通。此外 DeepMind 還聯系了此前最先進技術 RePlAce 的研究團隊，以確保 DeepMind 使用了 RePlAce 的適當配置。對大量布局塊進行預訓練所帶來的性能提升與從隨機初始化策略開始相比，預訓練能夠提高收斂速度。在開源 Ariane RISC-V CPU 上，隨機初始化策略需要 48 個小時才能達到預訓練策略在 6 小時內所產生的結果。DeepMind 的開源代碼倉庫可以完全復現在《自然》雜志上描述的方法。Cheng 等人試圖為他們預訓練的缺失尋找借口，稱 DeepMind 的開源代碼倉庫不支持預訓練，但這是不正確的。DeepMind 提供了多個預訓練運行方法示例，且始終受到支持。
為強化學習方法提供的計算資源遠少于原始論文在 Cheng 等人的論文中，強化學習方法使用的經驗收集器僅為原始論文的二十分之一（26 個，《自然》論文中為 512 個），GPU 數量減少至一半（8 個，《自然》論文為 16 個）。算力資源的減少可能會損害性能，或者需要運行更長時間才能實現相同（或者更差）的性能。如下圖，在大量 GPU 上進行訓練可以加快收斂速度并獲得更好的最終質量。如果 Cheng 等人在論文中使用與《自然》論文中相同的實驗設置，可能會改善他們的復現結果。速度和質量會隨著計算資源的增加而提高。左圖：布局反饋（越高越好）與訓練時間的關系，表現為一條關于 GPU 數量的函數。不可行的布局將獲得 -2 的布局反饋，增加 GPU 數量則可獲得更好的最終布局。右圖：達到給定布局回報所需要的時間，表現為一條關于 GPU 數量的函數。灰色條表示實驗未達到特定的回報值。最佳布局回報 -1.07 只能在 GPU=8 的情況下實現，而這已經是 Cheng 等人實驗中的最高設置。
未將強化學習方法訓練至收斂隨著機器學習模型不斷接受訓練，其損失通常會減少而后趨于穩定，代表其發生了“收斂”——即桺尼桑學會了它所能學到關于當前所執行任務的知識。訓練收斂是機器學習領域的標準實踐，未至收斂則會損害性能。Cheng 等人在其隨附項目站點上，沒有提供四個布局塊上任何一項達到收斂的訓練結果圖（其中 BlackParrot-NG45 和 Ariane-NG45 完全沒有配圖）。圖五所示，為 Cheng 等人項目站點上的收斂圖。表一總結了其中的可用信息。對于所有四個配有收斂圖的布局塊（Ariane-GF12、MemPool-NG45、BlackParrot-GF12 和 MemPool-GF12），訓練在相對較低的步數（分別為 350k、250k、160k 和 250k 步）10 處停止。遵循標準機器學習實踐可能會提高這些測試用例的性能。Cheng 等人未在隨附項目站點上提供任何在測試用例上進行了正確訓練的 Tensorboard 證據。
Cheng 等人的測試用例未使用現代芯片盡管 Cheng 等人似乎顯示 1M 步后在 Ariane-NG45 上實現了收斂，但卻省略了總訓練損失中的大部分內容，僅描述了線長、密度和擁塞成本。但除此之外，總損失還應涵蓋熵正則化損失、KL 懲罰損失、L2 正則化損失、策略梯度損失和值估計損失。關于訓練損失的詳細信息，可參閱開源代碼：https://github.com/google-research/circuit_training/blob/ 90fbe0e939c3038e43db63d2cf1ff570e525547a/circuit_training/learning/agent.py#L408。Cheng 等人沒有為該布局塊提供 TensorBoard，如表一所示，所有其他布局塊的運行步數則遠少于 1M 步。Cheng 等項目站點上公布的收斂圖。在 Ariane-NG45（左上）和 MemPool-NG45（右上）中，在 100k 步左右出現了奇怪的發散，但損失似乎仍呈下降趨勢，且可能隨著進一步訓練而改善。在 BlackParrot-GF12（左下）和 MemPool-GF12（右下）處，模型尚未收斂，且同樣可能在更長的訓練時間后改善。在《自然》論文中，DeepMind 報告了在 7 納米以下制程工藝的張量處理單元（TPU）運行布局塊的結果，其代表現代芯片的典型特征。相比之下，Cheng 等人言說蠅使用的是較舊的制程節點（45 納米和 12 納米），其在物理設計角度存在很大區別；例如在 10 納米以下，芯片通常使用多重圖案化 [15.38]，導致在較低密度下出現布線擁塞問題。因此對于較舊的制程節點，DeepMind 的方法可能受益于對其獎勵函數 11 的擁塞或密度分量的調整。DeepMind 并沒有專門將自己的技術方案應用于較舊的芯片節點設計，因為 DeepMind 所有的工作都運行在 7 納米、5 納米及更新的制程工藝之上。
Cheng 等人論文中的其他問題

與商業自動布局設計工具的不恰當比較 Cheng 等人將被嚴重弱化的強化學習方法，與在 DeepMind 方法發布多年之后的閉源專有軟件進行了比較。“這顯然不是對我們方法進行評估的合理方式——據我們所知，這款閉源工具可能就是基于我們的成果構建而成。”谷歌工程師確實提出了驗證建議，但并未遵循 Cheng 等人提出的具體方法。2020 年 5 月，DeepMind 開展了一項內部盲測 12，將其方法與兩款領先的商業自動布局設計工具的最新版本進行了比較。DeepMind 的方法優于后兩者，以 13 比 4（3 平）的成績優于其中一種，以 15 比 1（4 平）的成績優于另外一種。遺憾的是，受到商業供應商的標準許可協議的限制，DeepMind 無法公開具體對比細節。
“消融”了標準單元簇重新均衡中的初始布局在運行 DeepMind《自然》論文中的方法之前，DeepMind 利用物理合成（即芯片設計過程中的前一步）中的近似初始布局方式解決了 hMETIS 中標準單元簇大小不均衡的問題。Cheng 等人對單個布局塊（Ariane-NG45）進行了“消融”研究。他們沒有簡單跳過簇重新均衡步驟，而是嘗試將所有芯片組件堆疊在左下角 13，導致重新均衡步驟產生了退化的標準單元簇。對于由此引發的性能損害，Cheng 等人得出結論，認為 DeepMind 的強化學習代理以某種方式利用了初始布局信息，卻忽略了其根本未訪問初始布局且未放置標準單元的現實情況。DeepMind 也進行了一項消融研究，完全消除了對初始布局的使用，且沒有觀察到性能下降（見表二）。DeepMind 只是跳過了集群重新均衡的步驟，轉而將 hMETIS 的簇“不均衡度”參數降低到最低設置 (UBFactor=1)14，借此保證 hMETIS 生成更加均衡的簇。這項輔助預處理步驟已被記錄并自 2022 年 6 月 10 日起開源，但隨后發現其沒有必要，因此已被從 DeepMind 的生產流程中刪除。在存在和不存在初始布局的情況下，對標準單元進行聚類后的強化學習結果。對于所有指標來說，幅度均越低越好。不存在初始布局的聚類似乎不會造成性能損害。
代理成本與最終指標之間的相關性研究存在缺陷 Cheng 等人聲稱，DeepMind 的代理成本與最終指標間缺乏良好的相關性。但從他們的相關性研究方法來看，總體代理成本與除標準單元面積之外的所有最終指標間存在著較弱的正相關性。DeepMind 將布局面積視為硬約束條件，因此不會對其進行優化。基于機器學習的做強使用的代理成本，通常僅與目標具有弱相關性。例如，Gemini 和 ChatGPT 這樣的大語言模型就通過訓練來猜測序列中的下一個單詞，這在本質上屬于嘈雜信號。此外，Cheng 等人在相關性研究中還做出了一些令人“匪夷所思”的選擇：DeepMind 的盲測將強化學習與 20 個 TPU 布局塊上的人類專家與商業自動布局設計工具進行了比較。首先，負責放置給定布局塊的物理設計工程師會對這幾種匿名布局進行排名，且僅根據最終 QoR 指標進行評估，期間并不知曉各布局由哪種方式生成。接下來，由七名物理設計專家組成的小組負責審查排名結果是否可靠。在全部兩輪評估完成之后，才最終揭曉答案。結果是，最佳布局多數由強化學習方法生成，其次是人類專家，最后是商業自動布局設計工具。Cheng 等人還嘗試將所有組件放置在右上角的頂部和中心的單個點上。不出所料，這同樣引發了性能退化。UBfactor 是一條范圍從 1 到 49 的參數，其取值越低則代表 hMETIS 越是優先考慮對簇大小做出均衡。在 DeepMind 發表在《自然》上的論文中，UBfactor 被設置為 5。Cheng 等人論文中的表二顯示，總體代理成本與最終指標之間存在較弱的正相關性，但標準單元面積除外，因為 DeepMind 將這項指標視為硬約束條件且不做優化。Cheng 等人僅報告了代理成本低于 0.9 的相關性，且沒有此為這種評判方式提供任何理由。這樣的閾值排除了他們自己的大部分結果（參見 Cheng 等人論文中的表一）。相關性研究僅考慮到單一 45 納米測試案例（Ariane-NG45）。NG45 是一種更陳舊的制程節點規格，總體成本函數的擁塞和密度分量可能應該進行調整以更好地反映這種運行環境（參見第 2.4 節）。
Cheng 等人錯誤地聲稱谷歌工程師已經做出驗證 Cheng 等人聲稱谷歌工程師證實了該文章的技術正確性，但事實并非如此。谷歌工程師（并非本《自然》論文的通訊作者）只是證實他們確實從頭開始（即沒有經過預訓練）在 DeepMind 開源代碼倉庫的快速使用部分中，選取了單個測試用例并進行了訓練。快速使用指南顯然沒有全面復制 DeepMind 在《自然》論文中描述的方法，只是作為確認所需軟件已成功安裝、代碼已編譯完成且能夠在單個簡單測試用例（Ariane）上成功運行的前置準備。事實上，谷歌工程師們也提出了與 DeepMind 相同的擔憂，并提供了建設性的反饋，但并未得到 Cheng 等人的理會。例如，在 Cheng 等人的論文發表之前，谷歌工程師們就已經通過書面交流和多次會議提出了改進意見，包括使用的計算資源過少、未能調整代理成本權重以解釋截然不同的制程節點等等。Cheng 等人在其文章的致謝部分，還列舉了 DeepMind《自然》論文的通訊作者，以此暗示向他們征求過意見甚至參與過驗證流程。但事實并非如此，通訊作者們完全是在該論文發表之后才得到消息。
透明度與可重復性

AlphaChip 屬于完全開源項目 DeepMind 已經開源了自己的代碼倉庫，以完全復現 DeepMind 在《自然》論文中描述的方法。DeepMind 強化學習方法中的第一行代碼均可接受檢查、執行或修改，DeepMind 提供源代碼或二進制文件來執行所有預處理及后處理步驟。TF-Agents 團隊花了一年多時間公布了自己的開源代碼，其中包括復現 DeepMind 的方法和《自然》論文中的結果。以下是我們開源代碼倉庫中的相關說明：“我們在代碼開源過程中與谷歌另一支團隊（TF-Agents）共同合作。TF-Agents 首先使用我們的代碼倉庫復現了我們在《自然》論文中的結果，而后重新實現了具體方法并使用他們的實現再次復現了論文結果，而后將他們的實現版本進行開源，以保證其中不依賴任何內部基礎設施。”Cheng 等人毫無必要地對我們二進制文件中的兩項函數進行了“逆向工程”以進行性能優化（分別為代理成本函數以及 FD 力導向標準單元布局器）。正如 MLCAD 2021 論文中所討論，我們現在建議使用性能更高的 DREAMPlace 進行標準單元放置，而非 FD。我們提供傳統 FD 二進制文件的唯一目的，僅在于精確復現我們在《自然》雜志上發表的方法。關于公共基準，DeepMind 在《自然》論文中報告了開源 Ariane RISC-V CPU 的結果。此外，在 MLCAD 2021 的后續論文中，DeepMind 對開源 ISPD 2015 競賽中的基準測試進行了評估 [6]。由于已經開源了項目代碼，所以社區可以按照 DeepMind 的方法在任何公共基準測試上評估成果。
Cheng 等人聲稱他們無法公開他們的“開放”測試用例 DeepMind 對 Cheng 等人提出的批評之一，是其對《自然》論文的評估是在專有 TPU 布局塊之上進行。Cheng 等人聲稱對一組開放測試用例進行評估是為了提高可重復性，但當 DeepMind 與對方溝通時，他們無法或不愿提供在其主數據表中“開放”測試用例上復現結果時使用的綜合網表，這意味著 DeepMind 無法復現 Cheng 等人表一中的任何結果：GF12（12 納米）：這些測試用例是專有的，不對公眾開放，但卻被 Cheng 等人在結果中予以混淆。意味著即使外部研究人員擁有訪問權限，也仍然無法對結果直接進行比較。NG45（45 納米）：盡管 Cheng 等人自 2024 年 2 月以來已收到 10 余次申請，但始終沒有發布復現 NG45 結果所需的綜合網表。請注意，其他論文也對 NG45 布局塊進行了評估，但得到的結果與 Cheng 等人論文中表一的結果不一致，代表其結論的可重復性存疑。現代芯片 IP 具有敏感和專有屬性。據 DeepMind 所知，目前還沒有針對前沿制程工藝的開放基準。目前，完全開放的設計通常為 28 納米、45 納米甚至 130 納米，其許多物理設計特征與 7 納米以下制程完全不同。聲明：本文為 InfoQ 翻譯，未經許可禁止轉載。會議推薦就在 12 月 13 日 -14 日，AICon 將匯聚 70+ 位 AI 及技術領域的專家，深入探討大模型與推理、AI Agent、多模態、具身智能等前沿話題。此外，還有豐富的圓桌論壇、以及展區活動，滿足你對大模型實踐的好奇與想象。現在正值 9 折倒計時，名額有限，快掃碼咨詢了解詳情，別錯過這次絕佳的學習與交流機會！今日薦文ChatGPT 干掉了一家上市公司！千億市值歸零、10 多年 CEO 被迫離職，付費用戶直呼上當營收翻倍、Blackwell芯片爆單，黃仁勛否認 Scaling Law 失效，但英偉達財報后股價還是跌了最大的 AI Agent 生態系統來了！微軟推出適配 1800 種大模型的智能體，邁入自己的 Agent 時代獨家｜騰訊杰出科學家、混元大模型技術負責人之一劉威離職英偉達 Blackwell 芯片又又又曝問題！老黃大半年沒搞定，微軟們被迫換貨、換方案你也「在看」嗎？??

閱讀原文