「連續(xù)數(shù)值分布式表征」加持，浙大UIUC讓語(yǔ)言模型擅長(zhǎng)表格預(yù)測(cè) | ICLR 2024 Spotlight

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：「連續(xù)數(shù)值分布式表征」加持，浙大UIUC讓語(yǔ)言模型擅長(zhǎng)表格預(yù)測(cè) | ICLR 2024 Spotlight
關(guān)鍵字：特征,數(shù)值,表格,向量,模型
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：LRST
【新智元導(dǎo)讀】來(lái)自浙江大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究者發(fā)表了他們關(guān)于「表格語(yǔ)言模型」（Tabular Language Model）的研究成果，提出「相對(duì)量綱分詞」和「特征內(nèi)注意力機(jī)制」兩種適配技術(shù)，使現(xiàn)有語(yǔ)言模型架構(gòu)能更有效得感知連續(xù)數(shù)值和組織表格特征，在大量下游分類(lèi)回歸的表格預(yù)測(cè)數(shù)據(jù)集上超過(guò)以往非語(yǔ)言模型方法。論文「Making Pre-trained Language Models Great on Tabular Prediction」發(fā)表在ICLR 2024并被選為Spotlight。深度神經(jīng)網(wǎng)絡(luò)（DNN）的遷移學(xué)習(xí)能力已經(jīng)在非結(jié)構(gòu)化數(shù)據(jù)中取得了廣泛應(yīng)用，然而這種遷移紅利在結(jié)構(gòu)化的表格數(shù)據(jù)中仍未得到充分探索。
相比圖像、文本和語(yǔ)音，表格數(shù)據(jù)的基本特征是異質(zhì)的，不同列的值位于完全不同的特征空間，這為構(gòu)建可遷移的表格模型帶來(lái)了根本性的挑戰(zhàn)。
在如今的AIGC浪潮下，大語(yǔ)言模型（LLM）可以通過(guò)強(qiáng)大的上下文學(xué)習(xí)（in-context learning）能力執(zhí)行復(fù)雜高層次的推理和規(guī)劃，因此研究者認(rèn)為這種文本遷移能力也可以用于規(guī)避表格異質(zhì)特征帶來(lái)的

原文鏈接：「連續(xù)數(shù)值分布式表征」加持，浙大UIUC讓語(yǔ)言模型擅長(zhǎng)表格預(yù)測(cè) | ICLR 2024 Spotlight

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文