網友:按價格算也對的上
原標題:4o-mini只有8B,o1也才300B!微軟論文意外曝光GPT核心機密
文章來源:量子位
內容字數:3112字
微軟論文“泄露”OpenAI模型參數,引發熱議
近日,一篇由微軟發布的醫學相關論文意外泄露了多個大型語言模型(LLM)的參數信息,其中包括OpenAI的GPT-4系列和Anthropic的Claude 3.5 Sonnet等,引發了廣泛關注和討論。
1. 論文核心內容及參數泄露
這篇名為MEDEC的論文旨在評估LLM在醫學臨床筆記錯誤識別和糾正方面的能力。研究人員使用多個LLM進行實驗,并在論文中列出了這些模型的參數信息,包括GPT-4o (約200B參數)、GPT-4o-mini (約8B參數)、o1-preview (約300B參數) 、Claude 3.5 Sonnet (約175B參數)等。 微軟也公布了其自研模型Phi-3-7B的參數為7B。論文雖然聲明這些數字是估計值,但其精確度之高引發質疑,尤其是在缺少谷歌Gemini模型參數估計的情況下。
2. 參數泄露的爭議
這不是微軟第一次在論文中“意外”泄露OpenAI模型參數。去年10月,一篇論文就曾泄露GPT-3.5-Turbo的20B參數,隨后被刪除。此次再次引發人們對微軟行為的質疑,是無意之失還是故意為之?
有人認為,大多數模型在英偉達GPU上運行,可以通過token生成速度來估計參數,而谷歌模型使用TPU,所以難以估計,這可能是微軟只公布部分模型參數的原因。但也有人認為,微軟對公布的數據有信心,才敢如此“大膽”。
3. 網友熱議與推測
此次參數泄露引發網友熱議,主要集中在以下幾個方面:
- Claude 3.5 Sonnet參數小于GPT-4o,暗示Anthropic可能擁有技術優勢。
- GPT-4o-mini只有8B參數令人難以置信,但根據此前推理成本計算,這個數字并非完全不可能,可能指的是MoE模型的激活參數。
- OpenAI對模型參數的保密性極高,此次泄露再次凸顯了其對開源模型的謹慎態度。
4. 總結
微軟論文泄露LLM參數再次引發了人們對大型模型參數保密性和模型架構的關注。雖然論文聲明數字為估計值,但其精確度和選擇性引發了諸多猜測和討論。OpenAI對模型參數的嚴格保密策略,以及業界對模型架構和參數規模的持續探索,都將持續影響著AI領域的發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破