AMD把o1煉成了實驗室助手,自動科研經(jīng)費節(jié)省84%
從綜述、實驗到報告撰寫,一站式搞定
原標題:AMD把o1煉成了實驗室助手,自動科研經(jīng)費節(jié)省84%
文章來源:量子位
內(nèi)容字數(shù):8593字
AMD科研AI“Agent Laboratory”:84%降低科研成本,o1-preview成天選打工人
AMD最新推出的科研AI系統(tǒng)“Agent Laboratory”,利用LLM (大語言模型) 一站式完成科學研究,從文獻綜述到實驗、報告撰寫,大幅降低科研成本。該系統(tǒng)在GPT-4o、o1-mini和o1-preview三個模型中,o1-preview表現(xiàn)最佳,生成的代碼性能達到SOTA。
1. Agent Laboratory工作流程
Agent Laboratory主要分為三個階段:文獻綜述、實驗、報告撰寫。每個階段都分配不同的AI Agent角色,例如PhD Student、Postdoc、ML Engineer等,協(xié)同完成任務(wù)。
- 文獻綜述:PhD Student利用arXiv API檢索論文,提取摘要和全文,迭代式地構(gòu)建文獻綜述。
- 實驗:
- 計劃制定:PhD Student和Postdoc對話制定實驗計劃,包括實驗步驟、模型選擇、數(shù)據(jù)集選擇等。
- 數(shù)據(jù)準備:ML Engineer使用Python處理數(shù)據(jù),利用HuggingFace數(shù)據(jù)集搜索所需資源。
- 運行實驗:ML Engineer使用mle-solver模塊運行實驗。mle-solver通過迭代優(yōu)化代碼,并使用LLM獎勵模型評分,最終選擇性能最佳的代碼。
- 結(jié)果解釋:PhD Student和Postdoc共同分析實驗結(jié)果。
- 報告撰寫:PhD Student和Professor利用paper-solver模塊撰寫報告,該模塊生成初始報告框架,并支持迭代編輯和論文評審。
2. 模型評估與人工審稿對比
研究人員使用GPT-4o、o1-mini和o1-preview三個模型完成15篇論文,并邀請人工審稿人進行評分。結(jié)果顯示,o1-preview在整體研究幫助上表現(xiàn)最佳,o1-mini的實驗質(zhì)量得分最高,GPT-4o表現(xiàn)最差。人工審稿與自動審稿結(jié)果差異顯著,自動審稿傾向于高估論文分數(shù)。
3. 提升研究效果的技巧
作者在GitHub上分享了提升研究效果的技巧,包括撰寫詳細的筆記、使用更強大的模型以及利用檢查點恢復(fù)工作進度等。
4. 團隊成員背景
Agent Laboratory的研發(fā)團隊成員大部分為華人,他們在人工智能領(lǐng)域擁有豐富的經(jīng)驗,來自DeepMind、微軟、谷歌、Meta等知名機構(gòu)。
總而言之,Agent Laboratory通過AI驅(qū)動,實現(xiàn)了科研流程的自動化和高效化,顯著降低了科研成本,并展示了AI與人類協(xié)同的巨大潛力。該系統(tǒng)為未來科學研究提供了新的范例。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破