4o-mini只有8B,o1也才300B!微軟論文意外曝光GPT核心機(jī)密
網(wǎng)友:按價格算也對的上

原標(biāo)題:4o-mini只有8B,o1也才300B!微軟論文意外曝光GPT核心機(jī)密
文章來源:量子位
內(nèi)容字?jǐn)?shù):3112字
微軟論文“泄露”OpenAI模型參數(shù),引發(fā)熱議
近日,一篇由微軟發(fā)布的醫(yī)學(xué)相關(guān)論文意外泄露了多個大型語言模型(LLM)的參數(shù)信息,其中包括OpenAI的GPT-4系列和Anthropic的Claude 3.5 Sonnet等,引發(fā)了廣泛關(guān)注和討論。
1. 論文核心內(nèi)容及參數(shù)泄露
這篇名為MEDEC的論文旨在評估LLM在醫(yī)學(xué)臨床筆記錯誤識別和糾正方面的能力。研究人員使用多個LLM進(jìn)行實驗,并在論文中列出了這些模型的參數(shù)信息,包括GPT-4o (約200B參數(shù))、GPT-4o-mini (約8B參數(shù))、o1-preview (約300B參數(shù)) 、Claude 3.5 Sonnet (約175B參數(shù))等。 微軟也公布了其自研模型Phi-3-7B的參數(shù)為7B。論文雖然聲明這些數(shù)字是估計值,但其精確度之高引發(fā)質(zhì)疑,尤其是在缺少谷歌Gemini模型參數(shù)估計的情況下。
2. 參數(shù)泄露的爭議
這不是微軟第一次在論文中“意外”泄露OpenAI模型參數(shù)。去年10月,一篇論文就曾泄露GPT-3.5-Turbo的20B參數(shù),隨后被刪除。此次再次引發(fā)人們對微軟行為的質(zhì)疑,是無意之失還是故意為之?
有人認(rèn)為,大多數(shù)模型在英偉達(dá)GPU上運(yùn)行,可以通過token生成速度來估計參數(shù),而谷歌模型使用TPU,所以難以估計,這可能是微軟只公布部分模型參數(shù)的原因。但也有人認(rèn)為,微軟對公布的數(shù)據(jù)有信心,才敢如此“大膽”。
3. 網(wǎng)友熱議與推測
此次參數(shù)泄露引發(fā)網(wǎng)友熱議,主要集中在以下幾個方面:
- Claude 3.5 Sonnet參數(shù)小于GPT-4o,暗示Anthropic可能擁有技術(shù)優(yōu)勢。
- GPT-4o-mini只有8B參數(shù)令人難以置信,但根據(jù)此前推理成本計算,這個數(shù)字并非完全不可能,可能指的是MoE模型的激活參數(shù)。
- OpenAI對模型參數(shù)的保密性極高,此次泄露再次凸顯了其對開源模型的謹(jǐn)慎態(tài)度。
4. 總結(jié)
微軟論文泄露LLM參數(shù)再次引發(fā)了人們對大型模型參數(shù)保密性和模型架構(gòu)的關(guān)注。雖然論文聲明數(shù)字為估計值,但其精確度和選擇性引發(fā)了諸多猜測和討論。OpenAI對模型參數(shù)的嚴(yán)格保密策略,以及業(yè)界對模型架構(gòu)和參數(shù)規(guī)模的持續(xù)探索,都將持續(xù)影響著AI領(lǐng)域的發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號