上交大模型審稿風(fēng)險(xiǎn)：一句話就能讓論文評(píng)分飛升

AI 審稿，還是需要謹(jǐn)慎。

上交大揭露大模型審稿風(fēng)險(xiǎn)：一句話就能讓論文評(píng)分飛升

原標(biāo)題：上交大模型審稿風(fēng)險(xiǎn)：一句話就能讓論文評(píng)分飛升
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：7307字

大語(yǔ)言模型與學(xué)術(shù)同行評(píng)審：風(fēng)險(xiǎn)與應(yīng)對(duì)

機(jī)器之心AIxiv專欄報(bào)道了上海交通大學(xué)、佐治亞理工學(xué)院等多所高校聯(lián)合發(fā)表的論文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》，該論文深入探討了大語(yǔ)言模型(LLMs)在學(xué)術(shù)同行評(píng)審中帶來(lái)的潛在風(fēng)險(xiǎn)，并提出了相應(yīng)的應(yīng)對(duì)措施。

1. 大語(yǔ)言模型滲透學(xué)術(shù)同行評(píng)審

近年來(lái)，LLMs被越來(lái)越多地用于輔助甚至替代學(xué)術(shù)論文的同行評(píng)審，旨在提高效率。然而，斯坦福大學(xué)和EPFL的研究表明，已有相當(dāng)比例的論文內(nèi)容或評(píng)審意見(jiàn)受到了LLMs的影響，這引發(fā)了對(duì)學(xué)術(shù)評(píng)審可靠性的擔(dān)憂。

2. LLMs在同行評(píng)審中的風(fēng)險(xiǎn)

該論文揭示了LLMs在學(xué)術(shù)同行評(píng)審中存在的四大風(fēng)險(xiǎn)：

2.1 操控風(fēng)險(xiǎn)

作者可以通過(guò)在文章中插入肉眼難以察覺(jué)的指令性文字，操縱LLMs生成有利于自己的審稿意見(jiàn)，甚至操控最終的論文評(píng)分。研究表明，即使是微小的、幾乎不可見(jiàn)的文字也能顯著影響LLMs的判斷。

2.2 隱性操控

LLMs傾向于復(fù)述作者主動(dòng)在文章中揭示的局限性。作者可以通過(guò)故意暴露輕微缺陷，隱秘地操控審稿過(guò)程。與顯式操控相比，隱性操控更難察覺(jué)和防范。

2.3 幻覺(jué)問(wèn)題

LLMs可能對(duì)空白文章生成虛構(gòu)的審稿意見(jiàn)，這凸顯了“模型幻覺(jué)”問(wèn)題在審稿中的潛在威脅。即使文章內(nèi)容不完整，LLMs也可能給出與完整論文相似的評(píng)分，嚴(yán)重扭曲評(píng)審的實(shí)際質(zhì)量。

2.4 偏見(jiàn)問(wèn)題

LLMs在審稿過(guò)程中表現(xiàn)出明顯的偏好，例如對(duì)文章長(zhǎng)度、著名作者和機(jī)構(gòu)的偏愛(ài)，這極大影響了評(píng)審的公正性。

3. 應(yīng)對(duì)措施與倡議

為了應(yīng)對(duì)LLMs帶來(lái)的風(fēng)險(xiǎn)，研究者們提出了以下倡議：

暫停LLMs在同行評(píng)審中的替代性使用。
引入檢測(cè)工具和問(wèn)責(zé)機(jī)制，識(shí)別并應(yīng)對(duì)操控行為。
將LLMs作為輔助工具使用，提供額外反饋以提升審稿質(zhì)量。
增強(qiáng)LLMs審稿系統(tǒng)的穩(wěn)健性和安全性。

研究團(tuán)隊(duì)呼吁學(xué)界謹(jǐn)慎推進(jìn)LLMs在同行評(píng)審中的應(yīng)用，在確保風(fēng)險(xiǎn)可控并有有效的防范機(jī)制后，才能負(fù)責(zé)任地將其整合進(jìn)學(xué)術(shù)同行評(píng)審中，維護(hù)學(xué)術(shù)出版的公正性和嚴(yán)謹(jǐn)性。同時(shí)，他們也發(fā)起了問(wèn)卷調(diào)查，邀請(qǐng)相關(guān)人士參與，共同探討這一新興技術(shù)對(duì)學(xué)術(shù)審稿流程的影響。