混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議
關(guān)鍵字：專家,論文,領(lǐng)域,模型,發(fā)現(xiàn)
文章來源：量子位
內(nèi)容字數(shù)：2455字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI紅極一時的開源MoE模型Mixtral，論文終于新鮮出爐！
除了披露了更多技術(shù)細節(jié)，論文中還有一個結(jié)論引發(fā)了熱烈討論——
研究人員本想研究Mixtral是怎么根據(jù)話題分配專家的，結(jié)果發(fā)現(xiàn)專家的分配……和話題好像沒什么關(guān)系。
而在大多數(shù)人的印象中，Mixtral里的8個專家，是分別負責(zé)處理不同領(lǐng)域的話題的……
論文的結(jié)論曝光后，不少網(wǎng)友開始認為“專家混合”這個說法，可能不那么貼切了：
于是，針對Mixtral真實的工作機制，有網(wǎng)友給出了這樣的比喻：
所以，比起“專家的組合”，這樣的工作方式更像是一種硬盤陣列或者負載均衡？
但也有網(wǎng)友表示了不同意見：
這個問題并不根屬于MoE，因為自己之前見過的MoE模型中，是發(fā)現(xiàn)了真·專家分工的現(xiàn)象的。
那么，這究竟是怎么一回事呢？
實驗未發(fā)現(xiàn)專家按領(lǐng)域分布在訓(xùn)練過程中，作者觀察了Mixtral中是否有一些專家會針對某些特定領(lǐng)域進行專門化。
具體來說，作者計算了第0、15、31層在The Pile驗證集的不同子集（包含不同領(lǐng)域的文檔）上被選中的專家分布。
這些子集包括LaTeX格式的arXiv論文、生物

原文鏈接：混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

聯(lián)系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動態(tài)# 專家 # 發(fā)現(xiàn)# 模型 # 論文 # 領(lǐng)域

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

比A100性價比更高！FlightLLM讓大模型推理不再為性能和成本同時發(fā)愁

CES上的驚喜AI硬件！199美元、真正的AI助手rabbit r1，可以幫用戶操作任意app

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點

混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

比A100性價比更高！FlightLLM讓大模型推理不再為性能和成本同時發(fā)愁

CES上的驚喜AI硬件！199美元、真正的AI助手rabbit r1，可以幫用戶操作任意app

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點

混合專家系統(tǒng)里根本沒專家？開源MoE模型論文引網(wǎng)友熱議

CES上的驚喜AI硬件！199美元、真正的AI助手rabbit r1，可以幫用戶操作任意app