AI 審稿,還是需要謹慎。
原標題:上交大模型審稿風險:一句話就能讓論文評分飛升
文章來源:機器之心
內容字數:7307字
大語言模型與學術同行評審:風險與應對
機器之心AIxiv專欄報道了上海交通大學、佐治亞理工學院等多所高校聯合發表的論文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,該論文深入探討了大語言模型(LLMs)在學術同行評審中帶來的潛在風險,并提出了相應的應對措施。
1. 大語言模型滲透學術同行評審
近年來,LLMs被越來越多地用于輔助甚至替代學術論文的同行評審,旨在提高效率。然而,斯坦福大學和EPFL的研究表明,已有相當比例的論文內容或評審意見受到了LLMs的影響,這引發了對學術評審可靠性的擔憂。
2. LLMs在同行評審中的風險
該論文揭示了LLMs在學術同行評審中存在的四大風險:
2.1 操控風險
作者可以通過在文章中插入肉眼難以察覺的指令性文字,操縱LLMs生成有利于自己的審稿意見,甚至操控最終的論文評分。研究表明,即使是微小的、幾乎不可見的文字也能顯著影響LLMs的判斷。
2.2 隱性操控
LLMs傾向于復述作者主動在文章中揭示的局限性。作者可以通過故意暴露輕微缺陷,隱秘地操控審稿過程。與顯式操控相比,隱性操控更難察覺和防范。
2.3 幻覺問題
LLMs可能對空白文章生成虛構的審稿意見,這凸顯了“模型幻覺”問題在審稿中的潛在威脅。即使文章內容不完整,LLMs也可能給出與完整論文相似的評分,嚴重扭曲評審的實際質量。
2.4 偏見問題
LLMs在審稿過程中表現出明顯的偏好,例如對文章長度、著名作者和機構的偏愛,這極大影響了評審的公正性。
3. 應對措施與倡議
為了應對LLMs帶來的風險,研究者們提出了以下倡議:
- 暫停LLMs在同行評審中的替代性使用。
- 引入檢測工具和問責機制,識別并應對操控行為。
- 將LLMs作為輔助工具使用,提供額外反饋以提升審稿質量。
- 增強LLMs審稿系統的穩健性和安全性。
研究團隊呼吁學界謹慎推進LLMs在同行評審中的應用,在確保風險可控并有有效的防范機制后,才能負責任地將其整合進學術同行評審中,維護學術出版的公正性和嚴謹性。同時,他們也發起了問卷調查,邀請相關人士參與,共同探討這一新興技術對學術審稿流程的影響。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺