原標題:微軟論文意外「」,OpenAI參數全泄密!GPT-4o僅200B,o1 300B
文章來源:新智元
內容字數:11086字
微軟華盛頓大學研究:GPT-4參數意外曝光,LLM在醫療錯誤檢測中的表現
近日,一篇發表在arXiv上的論文意外曝光了OpenAI多個模型的參數,其中包括GPT-4、GPT-4o及其mini版本等。更令人驚訝的是,GPT-4o mini模型的參數量僅為80億,遠低于預期。該論文由微軟和華盛頓大學的研究團隊合作完成,主要關注的是利用大型語言模型(LLM)進行醫療錯誤檢測和糾正。
1. **模型參數的意外披露:** 論文中意外披露了GPT-4參數約為1.76萬億,GPT-4o約為2000億,GPT-4o mini約為80億,o1-preview約為3000億,o1-mini約為1000億,Claude 3.5 Sonnet約為1750億。這些參數值均為估算值。GPT-4o mini模型參數量之小引發了廣泛討論,部分網友推測其可能采用了MoE(混合專家)架構。
2. **MEDEC數據集的構建與特點:** 論文的核心是MEDEC數據集的介紹及應用。MEDEC是一個全新的臨床筆記數據集,包含3848篇臨床文本,涵蓋診斷、管理、治療、藥物治療和致病因子五種類型的醫療錯誤。該數據集的構建方法獨特,結合了醫學委員會考試題目和真實臨床筆記,并由多位醫學標注員進行標注,保證了數據的質量和可靠性。MEDEC數據集的出現,為評估LLM在醫療領域的應用提供了重要的基準。
3. **LLM在醫療錯誤檢測和糾正中的表現:** 研究人員使用MEDEC數據集評估了包括GPT-4、Claude 3.5 Sonnet、o1系列和Gemini 2.0 Flash等多個先進LLM在醫療錯誤檢測和糾正方面的表現。結果顯示,這些LLM在錯誤檢測和糾正方面表現良好,但仍存在一定的局限性,與人類醫生的表現存在差距。例如,部分模型存在過度預測錯誤的情況(即產生幻覺)。此外,模型在基于真實臨床筆記(UW子集)上的表現不如基于公開文本(MS子集)的表現好,這可能與模型預訓練數據相關。
4. **研究結論與未來方向:** 研究表明,雖然LLM在醫療錯誤檢測和糾正方面展現出潛力,但要達到人類醫生的水平仍需進一步研究。未來的研究方向包括改進提示詞設計、優化模型訓練數據以及開發更有效的評估指標等。該研究強調了在將LLM應用于醫療領域時,需要謹慎評估其性能,并采取必要的措施來保證其安全性與可靠性。
5. **研究團隊背景:** 該研究由微軟和華盛頓大學的研究人員共同完成,團隊成員包括來自應用科學、醫學信息學和語言學等多個領域的專家,擁有豐富的研究經驗和專業知識。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。