混合專家系統(tǒng)里根本沒專家?開源MoE模型論文引網(wǎng)友熱議
AIGC動態(tài)歡迎閱讀
原標題:混合專家系統(tǒng)里根本沒專家?開源MoE模型論文引網(wǎng)友熱議
關鍵字:專家,論文,領域,模型,發(fā)現(xiàn)
文章來源:量子位
內(nèi)容字數(shù):2455字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI紅極一時的開源MoE模型Mixtral,論文終于新鮮出爐!
除了披露了更多技術細節(jié),論文中還有一個結論引發(fā)了熱烈討論——
研究人員本想研究Mixtral是怎么根據(jù)話題分配專家的,結果發(fā)現(xiàn)專家的分配……和話題好像沒什么關系。
而在大多數(shù)人的印象中,Mixtral里的8個專家,是分別負責處理不同領域的話題的……
論文的結論曝光后,不少網(wǎng)友開始認為“專家混合”這個說法,可能不那么貼切了:
于是,針對Mixtral真實的工作機制,有網(wǎng)友給出了這樣的比喻:
所以,比起“專家的組合”,這樣的工作方式更像是一種硬盤陣列或者負載均衡?
但也有網(wǎng)友表示了不同意見:
這個問題并不根屬于MoE,因為自己之前見過的MoE模型中,是發(fā)現(xiàn)了真·專家分工的現(xiàn)象的。
那么,這究竟是怎么一回事呢?
實驗未發(fā)現(xiàn)專家按領域分布在訓練過程中,作者觀察了Mixtral中是否有一些專家會針對某些特定領域進行專門化。
具體來說,作者計算了第0、15、31層在The Pile驗證集的不同子集(包含不同領域的文檔)上被選中的專家分布。
這些子集包括LaTeX格式的arXiv論文、生物
原文鏈接:混合專家系統(tǒng)里根本沒專家?開源MoE模型論文引網(wǎng)友熱議
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破