余弦相似度可能沒用?對于某些線性模型,相似度甚至不唯一
好不容易找了把尺子,結(jié)果尺子會隨機(jī)伸縮。
原標(biāo)題:余弦相似度可能沒用?對于某些線性模型,相似度甚至不唯一
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4901字
余弦相似度:并非我們想象的靈丹妙藥
機(jī)器學(xué)習(xí)領(lǐng)域廣泛使用的余弦相似度,近期受到了來自Netflix和康奈爾大學(xué)研究的挑戰(zhàn)。該研究指出,余弦相似度在某些情況下會產(chǎn)生任意且毫無意義的結(jié)果,并非一直可靠的相似性度量。
1. 研究核心問題:余弦相似度的不可靠性
研究團(tuán)隊發(fā)現(xiàn),在特定場景下,特別是使用線性矩陣分解(MF)模型時,余弦相似度會產(chǎn)生隨意結(jié)果。這主要源于模型的正則化參數(shù)和學(xué)習(xí)到的嵌入向量之間的關(guān)系。 研究重點分析了MF模型的兩種常用訓(xùn)練目標(biāo),發(fā)現(xiàn)其中一種目標(biāo)會在學(xué)習(xí)到的嵌入中引入一個關(guān)鍵的度,導(dǎo)致嵌入維度可以任意縮放而不影響模型預(yù)測,從而影響余弦相似度計算的結(jié)果。
2. 問題根源:正則化與度
研究表明,正則化參數(shù)的設(shè)置會影響嵌入向量的縮放比例,進(jìn)而影響余弦相似度的計算結(jié)果。 文章舉了兩個例子說明這種任意性:在全秩MF模型中,可以構(gòu)造出每個item只與自己相似的結(jié)果;通過選擇不同的縮放矩陣,user-user相似度可以簡化為僅依賴原始數(shù)據(jù)而不依賴學(xué)習(xí)到的嵌入。
3. 線性模型之外的挑戰(zhàn)
該問題并非僅限于線性模型。在深度學(xué)習(xí)模型中,多種正則化技術(shù)的組合會產(chǎn)生意想不到的影響,使余弦相似度的結(jié)果變得不透明和任意。 直接使用點積優(yōu)化學(xué)習(xí)嵌入,再應(yīng)用余弦相似度,也可能導(dǎo)致難以解釋的結(jié)果。
4. 解決方法與替代方案
研究團(tuán)隊提出了幾種解決方法,包括:直接針對余弦相似度訓(xùn)練模型;避免在嵌入空間中工作,先投影回原始空間再計算相似度;在學(xué)習(xí)過程應(yīng)用歸一化或減少流行度偏差。 此外,博客作者還總結(jié)了一些余弦相似度的替代方案,例如歐幾里得距離、點積、軟余弦相似度和專門訓(xùn)練的語義文本相似度(STS)預(yù)測模型。
5. 結(jié)論與啟示
這項研究提醒我們,不能盲目依賴余弦相似度。 它在簡單的線性模型中都可能產(chǎn)生不可靠的結(jié)果,在更復(fù)雜的深度學(xué)習(xí)模型中問題可能更嚴(yán)重。 選擇相似度度量方法需要根據(jù)具體任務(wù)、數(shù)據(jù)和模型進(jìn)行謹(jǐn)慎選擇和測試,不能簡單地認(rèn)為余弦相似度是“足夠好”的方法。 研究者建議根據(jù)實際情況選擇合適的相似性度量方法,并對結(jié)果進(jìn)行充分的驗證。
6. 網(wǎng)友觀點與回應(yīng)
部分網(wǎng)友認(rèn)為相似度指標(biāo)需要根據(jù)嵌入空間量身定制,需要測試不同的指標(biāo)來進(jìn)行定性評估。 雖然OpenAI等機(jī)構(gòu)在代碼中使用了余弦相似度,但這并不意味著它在所有情況下都是最佳選擇。 研究結(jié)果表明,余弦相似度并非萬能的,需要根據(jù)實際情況選擇更合適的相似度計算方法。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺