代碼已開源,還支持微調
原標題:表格處理神器登上Nature!開箱即用,平均2.8s解讀任意表格
文章來源:量子位
內容字數:4085字
TabPFN:電子表格領域的ChatGPT時刻
近日,名為TabPFN的表格處理模型登上Nature期刊,引發數據科學領域廣泛關注。該模型專為小型表格設計,在樣本量不超過10,000時性能達到新SOTA,平均2.8秒內即可超越所有現有方法,即使其他方法擁有長達4小時的調優時間也無法匹敵。更重要的是,TabPFN采用預訓練神經網絡方法,終結了傳統機器學習(如梯度提升樹)在表格領域的統治地位。
TabPFN的開箱即用能力與優勢
1. **開箱即用:** TabPFN無需專門訓練即可處理任意表格,這與傳統方法需要針對每個任務開發和訓練定制模型形成鮮明對比。例如,在醫院預測患者病情惡化風險的場景中,TabPFN可以直接應用于包含患者信息(年齡、血氧水平等)的電子表格,無需額外訓練。
2. **性能提升:** TabPFN v2相比初代版本,分類能力得到改進,并擴展了回歸任務的支持,性能優于經過長時間調優的基線模型。它還原生支持缺失值和異常值,在處理各種數據集時保持高效和準確。
3. **適用范圍:** TabPFN v2適用于處理不超過10,000樣本和500特征的中小規模數據集。
TabPFN的訓練和應用過程
1. **數據樣:** 研究人員生成大量合成數據,通過采樣關鍵參數(數據點、特征、節點數量等),基于結構因果模型(SCMs)構建計算圖和圖結構,創建具有不同分布和特征的數據集,避免基礎模型常見問題。
2. **模型預訓練:** TabPFN為每個單元格分配表示,并采用雙向注意力機制(1D特征注意力和1D樣本注意力),增強對表格數據的理解能力。無論樣本和特征順序如何改變,模型都能穩定提取和利用信息,提高穩定性和泛化能力。
3. **模型優化:** 為了減少重復計算,模型在測試階段直接利用保存的訓練狀態;并采用半精度計算、激活檢查點等方法減少內存占用。
4. **實際預測:** 通過上下文學習(ICL)機制,模型無需針對每個新數據集重新訓練,可以直接應用于各種未曾見過的現實世界數據集。
TabPFN的性能評估與開源
1. **定性實驗:** TabPFN能夠對多種不同的函數類型進行有效建模,優于線性回歸、多層感知器(MLP)、CatBoost等。
2. **定量實驗:** 在AutoML Benchmark和OpenML – CTR23等數據集上,TabPFN超越Random Forest、XGBoost等基線方法,在多個指標上取得SOTA,并在5場Kaggle競賽中(訓練樣本少于10,000)戰勝CatBoost。
3. **開源與API:** TabPFN的代碼已開源,并提供API,允許用戶使用其GPU進行計算 (API調用:https://priorlabs.ai/tabpfn-nature/;代碼:https://github.com/PriorLabs/TabPFN)。
總而言之,TabPFN為表格數據處理帶來了性的變化,其開箱即用的能力和優異的性能使其成為小型表格數據處理領域的領先者。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破