表格處理神器登上Nature！開箱即用，平均2.8s解讀任意表格

代碼已開源，還支持微調(diào)

原標題：表格處理神器登上Nature！開箱即用，平均2.8s解讀任意表格
文章來源：量子位
內(nèi)容字數(shù)：4085字

TabPFN：電子表格領域的ChatGPT時刻

近日，名為TabPFN的表格處理模型登上Nature期刊，引發(fā)數(shù)據(jù)科學領域廣泛關注。該模型專為小型表格設計，在樣本量不超過10,000時性能達到新SOTA，平均2.8秒內(nèi)即可超越所有現(xiàn)有方法，即使其他方法擁有長達4小時的調(diào)優(yōu)時間也無法匹敵。更重要的是，TabPFN采用預訓練神經(jīng)網(wǎng)絡方法，終結了傳統(tǒng)機器學習（如梯度提升樹）在表格領域的統(tǒng)治地位。

TabPFN的開箱即用能力與優(yōu)勢

1. **開箱即用:** TabPFN無需專門訓練即可處理任意表格，這與傳統(tǒng)方法需要針對每個任務開發(fā)和訓練定制模型形成鮮明對比。例如，在醫(yī)院預測患者病情惡化風險的場景中，TabPFN可以直接應用于包含患者信息（年齡、血氧水平等）的電子表格，無需額外訓練。

2. **性能提升:** TabPFN v2相比初代版本，分類能力得到改進，并擴展了回歸任務的支持，性能優(yōu)于經(jīng)過長時間調(diào)優(yōu)的基線模型。它還原生支持缺失值和異常值，在處理各種數(shù)據(jù)集時保持高效和準確。

3. **適用范圍:** TabPFN v2適用于處理不超過10,000樣本和500特征的中小規(guī)模數(shù)據(jù)集。

TabPFN的訓練和應用過程

1. **數(shù)據(jù)樣:** 研究人員生成大量合成數(shù)據(jù)，通過采樣關鍵參數(shù)（數(shù)據(jù)點、特征、節(jié)點數(shù)量等），基于結構因果模型（SCMs）構建計算圖和圖結構，創(chuàng)建具有不同分布和特征的數(shù)據(jù)集，避免基礎模型常見問題。

2. **模型預訓練:** TabPFN為每個單元格分配表示，并采用雙向注意力機制（1D特征注意力和1D樣本注意力），增強對表格數(shù)據(jù)的理解能力。無論樣本和特征順序如何改變，模型都能穩(wěn)定提取和利用信息，提高穩(wěn)定性和泛化能力。

3. **模型優(yōu)化:** 為了減少重復計算，模型在測試階段直接利用保存的訓練狀態(tài)；并采用半精度計算、激活檢查點等方法減少內(nèi)存占用。

4. **實際預測:** 通過上下文學習（ICL）機制，模型無需針對每個新數(shù)據(jù)集重新訓練，可以直接應用于各種未曾見過的現(xiàn)實世界數(shù)據(jù)集。

TabPFN的性能評估與開源

1. **定性實驗:** TabPFN能夠對多種不同的函數(shù)類型進行有效建模，優(yōu)于線性回歸、多層感知器（MLP）、CatBoost等。

2. **定量實驗:** 在AutoML Benchmark和OpenML – CTR23等數(shù)據(jù)集上，TabPFN超越Random Forest、XGBoost等基線方法，在多個指標上取得SOTA，并在5場Kaggle競賽中（訓練樣本少于10,000）戰(zhàn)勝CatBoost。

3. **開源與API:** TabPFN的代碼已開源，并提供API，允許用戶使用其GPU進行計算 (API調(diào)用：https://priorlabs.ai/tabpfn-nature/；代碼：https://github.com/PriorLabs/TabPFN)。

總而言之，TabPFN為表格數(shù)據(jù)處理帶來了性的變化，其開箱即用的能力和優(yōu)異的性能使其成為小型表格數(shù)據(jù)處理領域的領先者。