微軟論文意外「」，OpenAI參數(shù)全泄密！GPT-4o僅200B，o1 300B

微軟論文意外「走光」，OpenAI參數(shù)全泄密！GPT-4o僅200B，o1 300B

原標題：微軟論文意外「」，OpenAI參數(shù)全泄密！GPT-4o僅200B，o1 300B
文章來源：新智元
內(nèi)容字數(shù)：11086字

微軟華盛頓大學研究：GPT-4參數(shù)意外曝光，LLM在醫(yī)療錯誤檢測中的表現(xiàn)

近日，一篇發(fā)表在arXiv上的論文意外曝光了OpenAI多個模型的參數(shù)，其中包括GPT-4、GPT-4o及其mini版本等。更令人驚訝的是，GPT-4o mini模型的參數(shù)量僅為80億，遠低于預期。該論文由微軟和華盛頓大學的研究團隊合作完成，主要關(guān)注的是利用大型語言模型(LLM)進行醫(yī)療錯誤檢測和糾正。

1. **模型參數(shù)的意外披露:** 論文中意外披露了GPT-4參數(shù)約為1.76萬億，GPT-4o約為2000億，GPT-4o mini約為80億，o1-preview約為3000億，o1-mini約為1000億，Claude 3.5 Sonnet約為1750億。這些參數(shù)值均為估算值。GPT-4o mini模型參數(shù)量之小引發(fā)了廣泛討論，部分網(wǎng)友推測其可能采用了MoE（混合專家）架構(gòu)。

2. **MEDEC數(shù)據(jù)集的構(gòu)建與特點:** 論文的核心是MEDEC數(shù)據(jù)集的介紹及應用。MEDEC是一個全新的臨床筆記數(shù)據(jù)集，包含3848篇臨床文本，涵蓋診斷、管理、治療、藥物治療和致病因子五種類型的醫(yī)療錯誤。該數(shù)據(jù)集的構(gòu)建方法獨特，結(jié)合了醫(yī)學委員會考試題目和真實臨床筆記，并由多位醫(yī)學標注員進行標注，保證了數(shù)據(jù)的質(zhì)量和可靠性。MEDEC數(shù)據(jù)集的出現(xiàn)，為評估LLM在醫(yī)療領(lǐng)域的應用提供了重要的基準。

3. **LLM在醫(yī)療錯誤檢測和糾正中的表現(xiàn):** 研究人員使用MEDEC數(shù)據(jù)集評估了包括GPT-4、Claude 3.5 Sonnet、o1系列和Gemini 2.0 Flash等多個先進LLM在醫(yī)療錯誤檢測和糾正方面的表現(xiàn)。結(jié)果顯示，這些LLM在錯誤檢測和糾正方面表現(xiàn)良好，但仍存在一定的局限性，與人類醫(yī)生的表現(xiàn)存在差距。例如，部分模型存在過度預測錯誤的情況（即產(chǎn)生幻覺）。此外，模型在基于真實臨床筆記（UW子集）上的表現(xiàn)不如基于公開文本（MS子集）的表現(xiàn)好，這可能與模型預訓練數(shù)據(jù)相關(guān)。

4. **研究結(jié)論與未來方向:** 研究表明，雖然LLM在醫(yī)療錯誤檢測和糾正方面展現(xiàn)出潛力，但要達到人類醫(yī)生的水平仍需進一步研究。未來的研究方向包括改進提示詞設(shè)計、優(yōu)化模型訓練數(shù)據(jù)以及開發(fā)更有效的評估指標等。該研究強調(diào)了在將LLM應用于醫(yī)療領(lǐng)域時，需要謹慎評估其性能，并采取必要的措施來保證其安全性與可靠性。

5. **研究團隊背景:** 該研究由微軟和華盛頓大學的研究人員共同完成，團隊成員包括來自應用科學、醫(yī)學信息學和語言學等多個領(lǐng)域的專家，擁有豐富的研究經(jīng)驗和專業(yè)知識。