突破性進(jìn)展：數(shù)學(xué)推理領(lǐng)域首度實(shí)現(xiàn)高效分布外檢測(cè)技術(shù)！

精準(zhǔn)適配數(shù)學(xué)推理場(chǎng)景。

原標(biāo)題：NeurIPS 2024 | 數(shù)學(xué)推理場(chǎng)景下，首個(gè)分布外檢測(cè)研究成果來(lái)了
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6314字

數(shù)學(xué)推理場(chǎng)景下的分布外檢測(cè)研究成果

本文介紹了一項(xiàng)關(guān)于數(shù)學(xué)推理場(chǎng)景下分布外檢測(cè)（OOD檢測(cè)）的研究，該研究已被NeurIPS 2024接收。研究由上海交通大學(xué)與阿里巴巴通義實(shí)驗(yàn)室合作完成，第一作者王一鳴是一名二年級(jí)博士生，研究方向涉及語(yǔ)言模型生成與推理。

1. 研究背景與挑戰(zhàn)

分布外檢測(cè)是確保深度學(xué)習(xí)模型在面對(duì)偏移數(shù)據(jù)時(shí)輸出可控結(jié)果的重要手段。隨著語(yǔ)言模型的進(jìn)步，復(fù)雜生成序列中的錯(cuò)誤傳播使得OOD數(shù)據(jù)的負(fù)面影響加劇。傳統(tǒng)的檢測(cè)方法在數(shù)學(xué)推理任務(wù)中面臨困境，因?yàn)閿?shù)學(xué)問(wèn)題的輸入輸出特征聚類不明顯且具有高密度疊加特性，研究團(tuán)隊(duì)稱之為“模式坍縮”。

2. 動(dòng)態(tài)Embedding軌跡的提出

為應(yīng)對(duì)上述挑戰(zhàn)，研究團(tuán)隊(duì)提出了一種基于動(dòng)態(tài)Embedding軌跡的新型OOD檢測(cè)算法，稱為“TV Score”。該方法通過(guò)記錄語(yǔ)言模型中每一層輸出的Embedding變化，來(lái)量化樣本在ID和OOD類別中的可能性。研究表明，OOD樣本的Embedding軌跡具有顯著的個(gè)性化差異，且在后期隱藏層的變化幅度更為顯著。

3. TV Score的計(jì)算方法

TV Score的計(jì)算分為三個(gè)步驟：首先，為ID樣本的每一層Embedding擬合高斯分布；其次，計(jì)算新樣本與其層高斯分布間的馬氏距離；最后，得出一個(gè)平均值作為樣本的最終軌跡波動(dòng)率得分。此外，研究團(tuán)隊(duì)還引入了差分平滑技術(shù)，以提高特征提取的精度。

4. 實(shí)驗(yàn)與結(jié)果

研究團(tuán)隊(duì)在11個(gè)數(shù)學(xué)推理數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，結(jié)果表明，TV Score在離線檢測(cè)和在線檢測(cè)場(chǎng)景中均展現(xiàn)了優(yōu)越的性能。在Far-shift OOD場(chǎng)景下，TV Score的AUROC指標(biāo)提高了10個(gè)點(diǎn)以上，且FPR95指標(biāo)顯著降低。在Near-shift OOD場(chǎng)景中，TV Score展現(xiàn)出了更強(qiáng)的魯棒性。

5. 泛化與總結(jié)

研究還測(cè)試了TV Score的泛化性，包括任務(wù)泛化和場(chǎng)景泛化，結(jié)果顯示TV Score在多種場(chǎng)景下均表現(xiàn)良好。總之，該研究為數(shù)學(xué)推理場(chǎng)景下的OOD檢測(cè)提供了新的思路，展示了傳統(tǒng)檢測(cè)算法的局限性以及動(dòng)態(tài)Embedding軌跡方法的適用性，為未來(lái)的研究方向奠定了基礎(chǔ)。

聯(lián)系作者

文章來(lái)源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# 人工智能 # 分布外檢測(cè)# 異常檢測(cè)# 數(shù)學(xué)推理 # 機(jī)器學(xué)習(xí)

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

突破性進(jìn)展：數(shù)學(xué)推理領(lǐng)域首度實(shí)現(xiàn)高效分布外檢測(cè)技術(shù)！

精準(zhǔn)適配數(shù)學(xué)推理場(chǎng)景。

數(shù)學(xué)推理場(chǎng)景下的分布外檢測(cè)研究成果

1. 研究背景與挑戰(zhàn)

2. 動(dòng)態(tài)Embedding軌跡的提出

3. TV Score的計(jì)算方法

4. 實(shí)驗(yàn)與結(jié)果

5. 泛化與總結(jié)

聯(lián)系作者

突破創(chuàng)意邊界：ControlNet的全新視角與應(yīng)用探索

謎一般的沉默：為何ChatGPT對(duì)這個(gè)人三緘其口？

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)