全網(wǎng)都在扒的DeepSeek團隊,是清北應(yīng)屆生撐起一片天
雷軍開千萬年薪挖的人來自怎樣的團隊?
原標題:全網(wǎng)都在扒的DeepSeek團隊,是清北應(yīng)屆生撐起一片天
文章來源:量子位
內(nèi)容字數(shù):6492字
DeepSeek:一支由年輕人才驅(qū)動,極度重視軟硬件協(xié)同的AI團隊
本文總結(jié)了DeepSeek團隊的構(gòu)成、運作模式以及其取得的突出成就,特別是其年輕化和軟硬件協(xié)同的特色。
年輕化團隊:清北人才的聚集地
DeepSeek團隊的核心成員以清華、北大等高校的應(yīng)屆生和在讀生為主,其中不乏獲得博士學(xué)位論文獎項的優(yōu)秀人才。這些年輕的研究者參與了DeepSeek從v1到v3版本的全過程,并做出了許多關(guān)鍵性創(chuàng)新,例如MLA新型注意力機制和GRPO強化學(xué)習(xí)對齊算法。
關(guān)鍵創(chuàng)新:MLA和GRPO
DeepSeek-V2的成功破圈,很大程度上歸功于MLA(Multi-head Latent Attention)新型注意力機制的提出,它顯著降低了計算量和推理顯存。高華佐和曾旺丁是MLA架構(gòu)的關(guān)鍵貢獻者。DeepSeekMath提出的GRPO(Group Relative Policy Optimization)算法,也在業(yè)內(nèi)引起了廣泛關(guān)注,甚至被阿里Qwen 2.5采用。該算法由邵智宏(清華)、朱琪豪(北大)、Wang Peyi(北大)等在DeepSeek實習(xí)期間完成。
核心成員及貢獻:
文章詳細介紹了多位DeepSeek核心成員及其貢獻,包括:高華佐(北大物理系畢業(yè))、曾旺丁(北郵,導(dǎo)師張洪剛)、邵智宏(清華,師從黃民烈教授)、朱琪豪(北大,師從熊英飛和張路教授,發(fā)表CCF-A類論文16篇)、Wang Peyi(北大,師從穗志方教授)、代達勱(北大,師從穗志方教授,獲得EMNLP 2023最佳長論文獎等)、王炳宣(北大)、趙成鋼(清華,世界大學(xué)生超算競賽三冠王)等。這些成員在模型算法和硬件工程方面都做出了重要貢獻。
軟硬件協(xié)同:1/11算力成就DeepSeek-v3
DeepSeek團隊非常重視模型算法和硬件工程的配合。DeepSeek v3論文有200位作者,其中許多人專注于優(yōu)化硬件,例如通過軟硬件協(xié)同設(shè)計,利用幻方AI的螢火2號萬卡集群,以Llama 3 405B的1/11算力訓(xùn)練出性能更高的DeepSeek-v3。
組織架構(gòu):類似OpenAI的扁平化管理
DeepSeek的組織架構(gòu)類似OpenAI,采用扁平化管理,不設(shè)前置崗位分工,鼓勵自然分工和資源共享。每個人都可以隨時調(diào)用訓(xùn)練集群,只要有幾個成員感興趣就可以啟動一個項目。這種靈活的組織結(jié)構(gòu),加上對人才能力而非經(jīng)驗的重視,使得DeepSeek能夠快速響應(yīng)市場需求,并做出突破性創(chuàng)新。
實習(xí)生貢獻:
文章還提到了DeepSeek實習(xí)生在3D生成和數(shù)學(xué)定理證明等領(lǐng)域做出的重要貢獻,例如清華博士生孫景翔和中山大學(xué)辛華劍。
總而言之,DeepSeek是一支年輕、充滿活力、并且極度重視軟硬件協(xié)同的AI團隊。其獨特的組織架構(gòu)和人才培養(yǎng)模式,使其能夠在激烈的AI競爭中脫穎而出,并取得了令人矚目的成就。其發(fā)展模式或許為中國AI行業(yè)提供了一種新的參考。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破