文親自上?創(chuàng)業(yè)十多年,DeepSeek梁文峰的“技術男”屬性從沒改變
2 月 18 日,DeepSeek 發(fā)布了一篇新論文,提出了一種新的注意力機制——NSA。
原標題:文親自上?創(chuàng)業(yè)十多年,DeepSeek梁文峰的“技術男”屬性從沒改變
文章來源:AI前線
內容字數(shù):9083字
DeepSeek創(chuàng)始人梁文鋒:低調的技術天才與“創(chuàng)始人模式”
本文概要介紹了DeepSeek創(chuàng)始人梁文鋒及其公司DeepSeek的最新進展,以及其獨特的管理模式和技術理念。
NSA注意力機制與DeepSeek的快速發(fā)展
DeepSeek團隊發(fā)布了新的注意力機制NSA,該機制結合了算法創(chuàng)新和硬件適配優(yōu)化,實現(xiàn)了超快速的長文本訓練。NSA在多個基準測試中表現(xiàn)出色,甚至超越了全注意力模型。梁文鋒親自參與編寫并上傳了該論文,這引起了廣泛關注,也體現(xiàn)了他作為技術人的核心地位。
梁文鋒:技術人與企業(yè)家的融合
文章詳細介紹了梁文鋒的個人經(jīng)歷,從浙江大學電子信息工程專業(yè)畢業(yè),到在艾麒信息擔任部門經(jīng)理,再到創(chuàng)立幻方量化并最終創(chuàng)立DeepSeek。他始終保持著對技術的熱情和追求,并將技術理念貫穿于量化投資和AI領域的發(fā)展中。他被外界冠以企業(yè)家、投資人等標簽,但他更重要的身份是技術人,這從他親自參與代碼建設和技術研發(fā)中可見一斑。
“創(chuàng)始人模式”與DeepSeek的扁平化管理
梁文鋒的管理風格體現(xiàn)了“創(chuàng)始人模式”,他親自參與解決問題,了解每個崗位的需求,高效配置資源。DeepSeek采用扁平化管理結構,給予員工充分的信任和度,鼓勵自主決策和知識共享。這種模式在《DeepSeek-V3 Technical Report》論文的貢獻者名單中得到了體現(xiàn),長達兩頁的名單包含了大量的研發(fā)工程師、數(shù)據(jù)標注人員和商務人員,這在其他論文中是罕見的。DeepSeek的“員工可以用卡”的資源調配方式,也為其他公司提供了寶貴的參考。
人才招聘與團隊文化
DeepSeek的招聘注重候選人的熱愛和扎實的基礎能力,而非項目經(jīng)驗。這吸引了一批高水平的算法人才,他們對技術充滿熱情,并在春節(jié)期間依然積極投入工作。DeepSeek的面試過程也體現(xiàn)了對專業(yè)技術的重視,面試官會深入考察候選人的思維方式和技術能力。
DeepSeek的未來發(fā)展
文章最后探討了DeepSeek未來的發(fā)展方向,以及梁文鋒是否會繼續(xù)深入研發(fā)細節(jié),還是轉向宏觀戰(zhàn)略規(guī)劃的問題。這將有待時間來解答。文章也提及了DeepSeek系列直播,將進一步解析其技術突破、商業(yè)化路徑和行業(yè)影響。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。