<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        表格處理神器登上Nature!開箱即用,平均2.8s解讀任意表格

        AIGC動態(tài)4個月前發(fā)布 量子位
        355 0 0

        代碼已開源,還支持微調(diào)

        表格處理神器登上Nature!開箱即用,平均2.8s解讀任意表格

        原標題:表格處理神器登上Nature!開箱即用,平均2.8s解讀任意表格
        文章來源:量子位
        內(nèi)容字數(shù):4085字

        TabPFN:電子表格領域的ChatGPT時刻

        近日,名為TabPFN的表格處理模型登上Nature期刊,引發(fā)數(shù)據(jù)科學領域廣泛關注。該模型專為小型表格設計,在樣本量不超過10,000時性能達到新SOTA,平均2.8秒內(nèi)即可超越所有現(xiàn)有方法,即使其他方法擁有長達4小時的調(diào)優(yōu)時間也無法匹敵。更重要的是,TabPFN采用預訓練神經(jīng)網(wǎng)絡方法,終結了傳統(tǒng)機器學習(如梯度提升樹)在表格領域的統(tǒng)治地位。

        TabPFN的開箱即用能力與優(yōu)勢

        1. **開箱即用:** TabPFN無需專門訓練即可處理任意表格,這與傳統(tǒng)方法需要針對每個任務開發(fā)和訓練定制模型形成鮮明對比。例如,在醫(yī)院預測患者病情惡化風險的場景中,TabPFN可以直接應用于包含患者信息(年齡、血氧水平等)的電子表格,無需額外訓練。

        2. **性能提升:** TabPFN v2相比初代版本,分類能力得到改進,并擴展了回歸任務的支持,性能優(yōu)于經(jīng)過長時間調(diào)優(yōu)的基線模型。它還原生支持缺失值和異常值,在處理各種數(shù)據(jù)集時保持高效和準確。

        3. **適用范圍:** TabPFN v2適用于處理不超過10,000樣本和500特征的中小規(guī)模數(shù)據(jù)集。

        TabPFN的訓練和應用過程

        1. **數(shù)據(jù)樣:** 研究人員生成大量合成數(shù)據(jù),通過采樣關鍵參數(shù)(數(shù)據(jù)點、特征、節(jié)點數(shù)量等),基于結構因果模型(SCMs)構建計算圖和圖結構,創(chuàng)建具有不同分布和特征的數(shù)據(jù)集,避免基礎模型常見問題。

        2. **模型預訓練:** TabPFN為每個單元格分配表示,并采用雙向注意力機制(1D特征注意力和1D樣本注意力),增強對表格數(shù)據(jù)的理解能力。無論樣本和特征順序如何改變,模型都能穩(wěn)定提取和利用信息,提高穩(wěn)定性和泛化能力。

        3. **模型優(yōu)化:** 為了減少重復計算,模型在測試階段直接利用保存的訓練狀態(tài);并采用半精度計算、激活檢查點等方法減少內(nèi)存占用。

        4. **實際預測:** 通過上下文學習(ICL)機制,模型無需針對每個新數(shù)據(jù)集重新訓練,可以直接應用于各種未曾見過的現(xiàn)實世界數(shù)據(jù)集。

        TabPFN的性能評估與開源

        1. **定性實驗:** TabPFN能夠對多種不同的函數(shù)類型進行有效建模,優(yōu)于線性回歸、多層感知器(MLP)、CatBoost等。

        2. **定量實驗:** 在AutoML Benchmark和OpenML – CTR23等數(shù)據(jù)集上,TabPFN超越Random Forest、XGBoost等基線方法,在多個指標上取得SOTA,并在5場Kaggle競賽中(訓練樣本少于10,000)戰(zhàn)勝CatBoost。

        3. **開源與API:** TabPFN的代碼已開源,并提供API,允許用戶使用其GPU進行計算 (API調(diào)用:https://priorlabs.ai/tabpfn-nature/;代碼:https://github.com/PriorLabs/TabPFN)。

        總而言之,TabPFN為表格數(shù)據(jù)處理帶來了性的變化,其開箱即用的能力和優(yōu)異的性能使其成為小型表格數(shù)據(jù)處理領域的領先者。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 国产中文在线亚洲精品官网| 亚洲中文无码mv| 大地资源在线观看免费高清| 亚洲女人18毛片水真多| 国产精品免费网站| 伊人久久综在合线亚洲2019| 亚洲日本在线免费观看| 亚洲国产精品乱码在线观看97| 最近新韩国日本免费观看| 亚洲精品综合久久中文字幕 | 国产免费福利体检区久久| 亚洲精品456播放| 成人网站免费大全日韩国产| 亚洲综合精品香蕉久久网| 女人体1963午夜免费视频| 亚洲午夜精品久久久久久人妖| 114级毛片免费观看| 国产精品亚洲四区在线观看| 国产精品视频免费一区二区三区| 天天综合亚洲色在线精品| 国产亚洲精品AA片在线观看不加载| 拍拍拍无挡免费视频网站| 337p日本欧洲亚洲大胆精品555588| 韩国免费一级成人毛片| 国产AV无码专区亚洲AV蜜芽| 国产亚洲美女精品久久久| 一级毛片免费毛片一级毛片免费 | 亚洲日产2021三区在线| 成人毛片视频免费网站观看| 羞羞的视频在线免费观看| 亚洲免费观看视频| 免费在线视频你懂的| 国产自偷亚洲精品页65页| 日本免费一区二区久久人人澡| 亚洲免费视频播放| 亚洲AV伊人久久青青草原| 久久青草精品38国产免费| 亚洲中文字幕无码久久2020| 国产亚洲成人在线播放va| 69式国产真人免费视频|