戰勝100多位NLP研究人員！楊笛一團隊最新百頁論文：首次統計學上證明，LLM生成的idea新穎性優于人類

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：戰勝100多位NLP研究人員！楊笛一團隊最新百頁論文：首次統計學上證明，LLM生成的idea新穎性優于人類
關鍵字：想法,研究人員,創意,論文,模型
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】斯坦福大學的最新研究通過大規模實驗發現，盡管大型語言模型（LLMs）在新穎性上優于人類專家的想法，但在可行性方面略遜一籌，還需要進一步研究以提高其實用性。大型語言模型（LLMs）在各個領域都是一個優秀的助手，廣大科研人員也對LLM在加速科學發現方面的潛力充滿期待，比如已經有研究提出了能夠自主生成和驗證新想法的研究智能體。
然而，至今還沒有評估結果能夠證明LLM系統能夠生成新穎的、達到專家水平的想法（idea），更不用說接手完成整個研究流程了。
為了填補這一空白，斯坦福大學的研究人員最近發布了耗時一年完成的新實驗，獲得了第一個具有統計學意義的結論：LLM生成的想法比人類專家撰寫的想法更新穎！論文鏈接：https://arxiv.org/pdf/2409.04109
在論文中，研究人員設計了一個完整的實驗，可以評估模型在新研究思路生成方面的能力，同時對可能的干擾因素進行控制，首次將專家級的自然語言處理（NLP）研究人員與LLM創意代智能體進行直接比較。
實驗招募了超過100名高水平NLP研究人員來撰寫新想法，然后對LLM生成的想法和人類想法進行盲審，

原文鏈接：戰勝100多位NLP研究人員！楊笛一團隊最新百頁論文：首次統計學上證明，LLM生成的idea新穎性優于人類