原標題:給AI一個詞就能測出科研創造力?人大高瓴團隊最新研究:模型智商高未必最有創意
文章來源:人工智能學家
內容字數:9991字
AI 科研創造力評估:高智商并非創造力的保證
近年來,人工智能在數學推理、代碼生成等領域取得了顯著進展,甚至超越了人類的表現。然而,一個關鍵問題是:這些模型是否真正具備科研創新能力?中國人民大學高瓴人工智能學院孫浩教授團隊的研究為這個問題提供了新的答案。
LiveIdeaBench:評估AI科研創造力的新基準
該團隊開發了一個名為LiveIdeaBench的基準,通過改變AI提示詞中的科學關鍵詞來評估其科研創造力。該基準基于Guilford創造力理論,從原創性、可行性、流暢性、靈活性四個維度對模型進行全面評估,涵蓋了18個學科領域的1180個科研關鍵詞。LiveIdeaBench采用動態評審機制,由多個頂尖模型組成的評審團每月更新一次,保證評測的公平性和時效性。
令人意外的發現:高智商≠高創造力
研究團隊對包括OpenAI的o1、Google的Gemini、Anthropic的Claude在內的20個主流大模型進行了測試。結果顯示,模型的通用智能水平與創新能力并不總是成正比。例如,Gemini Pro 1.5在原創性和可行性方面表現均衡;QwQ-32B-Preview模型雖然在通用任務評測中表現一般,但在創造力測試中卻與頂尖模型不相上下;Claude 3.5 Sonnet在原創性方面領先,但可行性較低。這表明,AI的“聰明”和“創意”是相對的維度,與人類類似,高智商并不意味著高創造力。
“點子王”模型:推理與創造力的結合
基于LiveIdeaBench的測試結果,研究團隊開發了一個名為“點子王”(IdeaWhiz)的模型,該模型繼承了QwQ-32B-Preview的推理特性,并在化學、生物、氣候和醫學等領域展現出強大的創意能力。例如,在針對“癌癥”的科研創意生成中,它能夠提出將機器學習與多組學數據結合以開發個性化癌癥疫苗的創新方案,展現了其將步步推理與創造性思維相結合的能力。該模型已在Hugging Face開源。
LiveIdeaBench的意義與未來展望
LiveIdeaBench不僅是一個評測基準,更是一個探索AI科研創造力的窗口。這項研究推動了AI在科學創新方面的進步,為人工智能輔助科學發現開辟了新的可能,也為科研工作者提供了一個實用的頭腦風暴助手。未來,該研究有望進一步完善AI創造力評估方法,促進AI在科學研究中的應用。
總而言之,這項研究強調了AI科研創造力的重要性,并指出高智商并非創造力的保證。LiveIdeaBench的出現為評估和提升AI的科研創造力提供了新的工具,也為AI輔助科學發現開辟了新的可能性。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構