上交大模型審稿風(fēng)險(xiǎn):一句話就能讓論文評(píng)分飛升
AI 審稿,還是需要謹(jǐn)慎。
原標(biāo)題:上交大模型審稿風(fēng)險(xiǎn):一句話就能讓論文評(píng)分飛升
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7307字
大語(yǔ)言模型與學(xué)術(shù)同行評(píng)審:風(fēng)險(xiǎn)與應(yīng)對(duì)
機(jī)器之心AIxiv專欄報(bào)道了上海交通大學(xué)、佐治亞理工學(xué)院等多所高校聯(lián)合發(fā)表的論文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,該論文深入探討了大語(yǔ)言模型(LLMs)在學(xué)術(shù)同行評(píng)審中帶來(lái)的潛在風(fēng)險(xiǎn),并提出了相應(yīng)的應(yīng)對(duì)措施。
1. 大語(yǔ)言模型滲透學(xué)術(shù)同行評(píng)審
近年來(lái),LLMs被越來(lái)越多地用于輔助甚至替代學(xué)術(shù)論文的同行評(píng)審,旨在提高效率。然而,斯坦福大學(xué)和EPFL的研究表明,已有相當(dāng)比例的論文內(nèi)容或評(píng)審意見(jiàn)受到了LLMs的影響,這引發(fā)了對(duì)學(xué)術(shù)評(píng)審可靠性的擔(dān)憂。
2. LLMs在同行評(píng)審中的風(fēng)險(xiǎn)
該論文揭示了LLMs在學(xué)術(shù)同行評(píng)審中存在的四大風(fēng)險(xiǎn):
2.1 操控風(fēng)險(xiǎn)
作者可以通過(guò)在文章中插入肉眼難以察覺(jué)的指令性文字,操縱LLMs生成有利于自己的審稿意見(jiàn),甚至操控最終的論文評(píng)分。研究表明,即使是微小的、幾乎不可見(jiàn)的文字也能顯著影響LLMs的判斷。
2.2 隱性操控
LLMs傾向于復(fù)述作者主動(dòng)在文章中揭示的局限性。作者可以通過(guò)故意暴露輕微缺陷,隱秘地操控審稿過(guò)程。與顯式操控相比,隱性操控更難察覺(jué)和防范。
2.3 幻覺(jué)問(wèn)題
LLMs可能對(duì)空白文章生成虛構(gòu)的審稿意見(jiàn),這凸顯了“模型幻覺(jué)”問(wèn)題在審稿中的潛在威脅。即使文章內(nèi)容不完整,LLMs也可能給出與完整論文相似的評(píng)分,嚴(yán)重扭曲評(píng)審的實(shí)際質(zhì)量。
2.4 偏見(jiàn)問(wèn)題
LLMs在審稿過(guò)程中表現(xiàn)出明顯的偏好,例如對(duì)文章長(zhǎng)度、著名作者和機(jī)構(gòu)的偏愛(ài),這極大影響了評(píng)審的公正性。
3. 應(yīng)對(duì)措施與倡議
為了應(yīng)對(duì)LLMs帶來(lái)的風(fēng)險(xiǎn),研究者們提出了以下倡議:
- 暫停LLMs在同行評(píng)審中的替代性使用。
- 引入檢測(cè)工具和問(wèn)責(zé)機(jī)制,識(shí)別并應(yīng)對(duì)操控行為。
- 將LLMs作為輔助工具使用,提供額外反饋以提升審稿質(zhì)量。
- 增強(qiáng)LLMs審稿系統(tǒng)的穩(wěn)健性和安全性。
研究團(tuán)隊(duì)呼吁學(xué)界謹(jǐn)慎推進(jìn)LLMs在同行評(píng)審中的應(yīng)用,在確保風(fēng)險(xiǎn)可控并有有效的防范機(jī)制后,才能負(fù)責(zé)任地將其整合進(jìn)學(xué)術(shù)同行評(píng)審中,維護(hù)學(xué)術(shù)出版的公正性和嚴(yán)謹(jǐn)性。同時(shí),他們也發(fā)起了問(wèn)卷調(diào)查,邀請(qǐng)相關(guān)人士參與,共同探討這一新興技術(shù)對(duì)學(xué)術(shù)審稿流程的影響。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)