AI超越人類專家:神經(jīng)學(xué)研究的新紀(jì)元即將來(lái)臨!
LLM在所有子領(lǐng)域的預(yù)測(cè)也都超越了人類專家

原標(biāo)題:科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超過(guò)人類專家水平 | Nature子刊
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3754字
LLM在神經(jīng)科學(xué)預(yù)測(cè)中的應(yīng)用研究
最近,來(lái)自多所知名大學(xué)的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)關(guān)于大型語(yǔ)言模型(LLM)在神經(jīng)科學(xué)領(lǐng)域預(yù)測(cè)能力的研究,結(jié)果表明LLM的預(yù)測(cè)準(zhǔn)確率顯著高于人類專家。這項(xiàng)研究在《自然人類行為》期刊上發(fā)表,引起了廣泛關(guān)注。
研究成果概述
1. **準(zhǔn)確率比較**:經(jīng)過(guò)BrainBench基準(zhǔn)測(cè)試,LLM的平均預(yù)測(cè)準(zhǔn)確率為81.4%,而人類專家的平均準(zhǔn)確率僅為63.4%。
2. **子領(lǐng)域表現(xiàn)**:在神經(jīng)科學(xué)的五個(gè)主要子領(lǐng)域(行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù))中,LLM的表現(xiàn)均優(yōu)于人類專家,尤其是在行為認(rèn)知和系統(tǒng)/回路方面。
3. **模型對(duì)比**:較小的模型(如Llama2-7B和Mistral-7B)與較大的模型表現(xiàn)相當(dāng),而經(jīng)過(guò)優(yōu)化的模型表現(xiàn)不如基礎(chǔ)模型。
研究方法與數(shù)據(jù)收集
4. **數(shù)據(jù)來(lái)源**:研究團(tuán)隊(duì)從PubMed獲取了2002年至2022年間的332807篇神經(jīng)科學(xué)相關(guān)摘要,并提取了123085篇全文,總計(jì)13億個(gè)tokens供模型訓(xùn)練使用。
5. **測(cè)試用例構(gòu)建**:BrainBench的測(cè)試用例通過(guò)修改論文摘要生成,參與者需從兩個(gè)版本中選擇一個(gè)包含實(shí)際研究結(jié)果的摘要。
信心評(píng)估與模型記憶
6. **信心校準(zhǔn)**:LLMs和人類專家的預(yù)測(cè)信心均得到良好校準(zhǔn),高信心的預(yù)測(cè)更有可能正確。
7. **記憶評(píng)估**:研究表明LLM并未單純記憶訓(xùn)練數(shù)據(jù),而是學(xué)習(xí)到了廣泛的科學(xué)模式,這通過(guò)zlib壓縮率和困惑度比率的分析得以驗(yàn)證。
前景與挑戰(zhàn)
8. **未來(lái)應(yīng)用**:這一研究為神經(jīng)科學(xué)的初步探索提供了新的方向,LLM有望用于篩選科研想法,提升研究效率。
9. **學(xué)術(shù)爭(zhēng)議**:盡管LLM在預(yù)測(cè)方面表現(xiàn)出色,但部分研究者對(duì)其實(shí)際應(yīng)用表示質(zhì)疑,認(rèn)為實(shí)驗(yàn)仍是科研的核心,且現(xiàn)有測(cè)試方法可能未涵蓋復(fù)雜的研究情境。
整體而言,這項(xiàng)研究展示了LLM在神經(jīng)科學(xué)領(lǐng)域的潛力,未來(lái)可能擴(kuò)展至更多學(xué)術(shù)研究領(lǐng)域,為科研提供新的工具和視角。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)