上交大模型審稿風(fēng)險:一句話就能讓論文評分飛升
AI 審稿,還是需要謹(jǐn)慎。

原標(biāo)題:上交大模型審稿風(fēng)險:一句話就能讓論文評分飛升
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7307字
大語言模型與學(xué)術(shù)同行評審:風(fēng)險與應(yīng)對
機(jī)器之心AIxiv專欄報道了上海交通大學(xué)、佐治亞理工學(xué)院等多所高校聯(lián)合發(fā)表的論文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,該論文深入探討了大語言模型(LLMs)在學(xué)術(shù)同行評審中帶來的潛在風(fēng)險,并提出了相應(yīng)的應(yīng)對措施。
1. 大語言模型滲透學(xué)術(shù)同行評審
近年來,LLMs被越來越多地用于輔助甚至替代學(xué)術(shù)論文的同行評審,旨在提高效率。然而,斯坦福大學(xué)和EPFL的研究表明,已有相當(dāng)比例的論文內(nèi)容或評審意見受到了LLMs的影響,這引發(fā)了對學(xué)術(shù)評審可靠性的擔(dān)憂。
2. LLMs在同行評審中的風(fēng)險
該論文揭示了LLMs在學(xué)術(shù)同行評審中存在的四大風(fēng)險:
2.1 操控風(fēng)險
作者可以通過在文章中插入肉眼難以察覺的指令性文字,操縱LLMs生成有利于自己的審稿意見,甚至操控最終的論文評分。研究表明,即使是微小的、幾乎不可見的文字也能顯著影響LLMs的判斷。
2.2 隱性操控
LLMs傾向于復(fù)述作者主動在文章中揭示的局限性。作者可以通過故意暴露輕微缺陷,隱秘地操控審稿過程。與顯式操控相比,隱性操控更難察覺和防范。
2.3 幻覺問題
LLMs可能對空白文章生成虛構(gòu)的審稿意見,這凸顯了“模型幻覺”問題在審稿中的潛在威脅。即使文章內(nèi)容不完整,LLMs也可能給出與完整論文相似的評分,嚴(yán)重扭曲評審的實(shí)際質(zhì)量。
2.4 偏見問題
LLMs在審稿過程中表現(xiàn)出明顯的偏好,例如對文章長度、著名作者和機(jī)構(gòu)的偏愛,這極大影響了評審的公正性。
3. 應(yīng)對措施與倡議
為了應(yīng)對LLMs帶來的風(fēng)險,研究者們提出了以下倡議:
- 暫停LLMs在同行評審中的替代性使用。
- 引入檢測工具和問責(zé)機(jī)制,識別并應(yīng)對操控行為。
- 將LLMs作為輔助工具使用,提供額外反饋以提升審稿質(zhì)量。
- 增強(qiáng)LLMs審稿系統(tǒng)的穩(wěn)健性和安全性。
研究團(tuán)隊(duì)呼吁學(xué)界謹(jǐn)慎推進(jìn)LLMs在同行評審中的應(yīng)用,在確保風(fēng)險可控并有有效的防范機(jī)制后,才能負(fù)責(zé)任地將其整合進(jìn)學(xué)術(shù)同行評審中,維護(hù)學(xué)術(shù)出版的公正性和嚴(yán)謹(jǐn)性。同時,他們也發(fā)起了問卷調(diào)查,邀請相關(guān)人士參與,共同探討這一新興技術(shù)對學(xué)術(shù)審稿流程的影響。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號