DeepSeek,清北应届生撑起一片天

DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?国际

DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。

紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才

这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?

DeepSeek,清北应届生撑起一片天

国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。

DeepSeek,清北应届生撑起一片天

量子位整理各种资料发现,DeepSeek团队*的特点就是年轻

应届生、在读生,特别是来自清北的应届生在其中非常活跃。

他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。

DeepSeek,清北应届生撑起一片天

DeepSeek,清北应届生撑起一片天

他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。

为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。

DeepSeek核心成员揭秘

2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。

其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。

DeepSeek,清北应届生撑起一片天

在一众贡献者中,高华佐曾旺丁为MLA架构做出了关键创新。

DeepSeek,清北应届生撑起一片天

高华佐非常低调,目前只知道是北大物理系毕业。

另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。

DeepSeek,清北应届生撑起一片天

而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。

DeepSeek,清北应届生撑起一片天

DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO

DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。

GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。

DeepSeek,清北应届生撑起一片天

GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。

DeepSeek,清北应届生撑起一片天

DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。

DeepSeek,清北应届生撑起一片天

核心作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。

DeepSeek,清北应届生撑起一片天

他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。

邵智宏之前还曾在微软研究院工作过。

DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。

DeepSeek,清北应届生撑起一片天

另一位核心作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。

据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。

在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。

其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。

DeepSeek,清北应届生撑起一片天

图源:北京大学计算机学院公众号

还有一位核心作者同样来自北大。

北大博士生Peiyi Wang,受北京大学计算语言学教育部重点实验室穗志方教授指导。

DeepSeek,清北应届生撑起一片天

除了DeepSeek-V2 MLA、DeepSeekMath GRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。

代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。

DeepSeek,清北应届生撑起一片天

图源:北京大学计算机学院公众号

代达劢学术成果颇丰,曾获EMNLP 2023*长论文奖、CCL 2021*中文论文奖,在各大顶会发表学术论文20篇+。

2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。

以及北大元培学院的王炳宣

DeepSeek,清北应届生撑起一片天

王炳宣来自山东烟台,2017年进入北大。

硕士毕业加入DeepSeek,参与了从DeepSeek LLM v1开始的一系列重要工作。

清华这边的代表人物还有赵成钢

赵成钢此前是衡水中学信息学竞赛班成员,CCF NOI2016银牌得主。

之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。

赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。

DeepSeek,清北应届生撑起一片天

图源:清华新闻网

DeepSeek是一支怎样的团队

这些鲜活的个体,足以引发人们的赞叹。

但还不足以回答最初的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?

答案或许还要从创始人梁文锋身上找。

早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。

看能力,而不是看经验。

我们的核心技术岗位,基本以应届和毕业一两年的人为主。

从后面一年多陆续发表的论文贡献名单中也可以看出,确实如此,博士在读、应届以及毕业一两年的成员占很大一部分。

即使是团队leader级别也偏年轻化,以毕业4-6年的为主。

例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。

DeepSeek,清北应届生撑起一片天

吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合培养。

与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合培养,2023年博士毕业。

2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。

郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”

DeepSeek,清北应届生撑起一片天

除了团队成员年轻化之外,DeepSeek在国内AI公司中突出的特点:非常重视模型算法和硬件工程的配合。

DeepSeek v3论文总共200位作者,并不都是负责AI算法或数据。

有这样一批人从早期的DeepSeek LLM v1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。

他们以DeepSeek AI的名义发表了论文《Fire-Flyer AI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。

Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100 GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的优势。

这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。

而如此重视软硬件协同的成果,就是以Llama 3 405B的1/11算力,训练出性能更高的DeepSeek-v3了。

DeepSeek,清北应届生撑起一片天

最后,我们还发现DeepSeek开源项目中有一个特别的存在,不是语言模型相关工作,却是3D生成相关。

这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。

DeepSeek,清北应届生撑起一片天

像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑

他在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。

DeepSeek,清北应届生撑起一片天

看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。

不做前置的岗位分工,而是自然分工

每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目

当一个idea显示出潜力,也会自上而下地去调配资源。

这难免让人想起AI界另一家不可忽视的力量,没错就是OpenAI

同样的用人不看经验,本科生、辍学生只要有能力照样招进来。

同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。

同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。

DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。

参考链接:

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

(0)
小多多的头像小多多创始人

相关推荐

  • 过年买手机会不会便宜 其中的套路其实很深

    临近年底大家对于添置新物件都有着非常大的执念,那么在过年的这个时间点买手机的话会不会便宜一点呢?接下里的内容就给大家简单的分析一下吧! 为什么大家想在过年的时候买手机呢?除了相信了…

    创投 2022年1月25日
  • 一个创新药开发者的漫长季节

    一个创新药开发者的漫长季节,当近两年资本寒冬席卷创新药领域时,扎堆出现的药物的纸面黄金迅速贬值。而经过长时期理论验证做出的药开始破冰而出。

    2023年5月24日
  • 引爆年货礼品市场,六个核桃成为春节档常青树_行业动态

    2024春节礼品市场热度不断升温,琳琅的年货中,六个核桃凭借卓 越品质C位出圈。除了线下销售活跃,在各大电商“年货节”活动中,六个核桃得到了头部主播们的强力推荐,尤其是“六六大顺罐”表现亮眼,助力六个核桃荣登京东“品牌榜”“单品榜”双第 一,取得年货节开门红,成为消费者走亲访友送礼的*。伴随销量高

    2024年1月26日 创投
  • 开年,黄仁勋扔出一串王炸

    一场约90分钟的演讲,黄仁勋成功地让CES变为个人秀场。当地时间1月6日晚间,黄仁勋在CES 2025(国际消费类电子产品展览会)上发表了开幕演讲。不同于往日身着“压花小牛皮”的传统装扮,黄仁勋这次选择了一件字面意义上“闪亮全场”的鳄鱼皮夹克,似乎也暗示了今晚的英伟达将非比寻常。在短短数语回顾了英伟

    2025年1月8日
  • 行业专家崔东树:更多方参与新能源夏测,最终将有利于中国汽车_行业动态

    汽车夏测已成为行业热门话题。近期中汽中心、懂车帝等机构举行的夏测引发网友热议,夏测方案、夏测成绩等内容都受到重点关注,车企也广泛参与其中,与第三方机构共同探讨测试标准,为消费者呈现更真实的车辆水平。对此行业专家崔东树发文表示,目前中汽中心、懂车帝推广的夏测等新能源车测试项目,通过多元化测试可以给消

    2024年7月2日
  • 投资界24h|马斯克官宣新公司xAI,华人大牛云集;招商资本豪掷250亿,贝恩资本出局;东久新宜设超 35 亿新基金

    投资界24h|马斯克官宣新公司xAI,华人大牛云集;招商资本豪掷250亿,贝恩资本出局;东久新宜设超 35 亿新基金,xAI的目标是为了理解宇宙的真正本质(understandthetruenatureoftheuniverse)

    创投 2023年7月15日
  • 经营表现卓越华电国际摘中国证券“金紫荆奖”两项殊荣_行业动态

    12月19日,由香港大公文汇传媒集团联合香港中国企业协会、香港中国金融协会、香港中资证券业协会、香港公司治理公会主办的第十四届香港国际金融论坛暨中国证券“金紫荆奖”颁奖典礼在香港会议展览中心举行。华电国际电力股份有限公司(以下简称“华电国际”或公司)凭借卓 越的经营表现,荣获2024中国证券“金紫

    2024年12月20日
  • 「镔铁生物」完成超亿元A轮融资,国投创业领投

    投资界(ID:pedaily2012)10月31日消息,上海镔铁生物科技有限责任公司(简称“镔铁生物”)宣布完成超亿元A轮融资,本次融资由国投创业领投,黄埔医药基金、元希海河基金等共同投资,支持镔铁生物推动新技术研发、商业化生产实施、国际化经营战略布局等。本轮所募资金将用于加速推进针对KRAS G1

    2023年10月31日
  • 宝妈兼职什么赚钱 改善生活的明智之选

    对于很多带孩子的宝妈来说,都想做一些简直来增加自己的收入改善生活,那么到底有哪些兼职宝妈们可以做呢?接下来的内容咱们就聊聊这个话题吧! 首先非常推荐的一个项目就是做淘宝客,简单来说…

    创投 2022年1月25日
  • 麦当劳涨价,塔斯汀们机会来了

    近日有网友在社交媒体上爆料称,自12月27日起,麦当劳全线近90%的汉堡、小食类产品将涨价0.5元,相关套餐将随之涨价1元。而此前曾连续涨价的“随心配1+1”套餐本次暂定不涨价。作为国内知名度最广的快餐品牌之一,麦当劳涨价的话题迅速引起网友热议。有网友表示不满,涨价的同时应当将口味和分量做好,否则消

    2023年12月27日
  • 聚焦柔性纤维传感器技术研发,「矩侨工业」获近千万元种子轮融资

    投资界(ID:pedaily2012)7月29日消息,矩侨工业已完成近千万元种子轮融资,投资方为国信喜海基金,浪潮资本担任长期独家财务顾问,本轮融资主要用于数字化工厂建设和产线铺设。矩侨工业成立于2023年11月,主要聚焦柔性纤维传感器技术研发。通过将纤维压力传感器、纤维电极、拉力感知纤维等多项创新

    2024年7月29日
  • 汽车芯片,迎来DeepSeek时刻

    时刻(moment),这个概念最早来自西方20世纪剑桥学派的新共和主义。波考克的书籍《马基雅维里时刻》中,将时刻赋予了一种特别意义,形容从弱小、分散到强有力的共同体的形成,便称之为“时刻”。在科技发展的过程中,我们经历过很多时刻:“iPhone 4时刻”,乔布斯用iPhone 4滑动解锁了一个新时代

    2025年3月4日
  • 难逃网红宿命,「自嗨锅」们不香了?

    难逃网红宿命,「自嗨锅」们不香了?,作为昔日新消费品牌顶流,江湖上已经许久没有自嗨锅的传说。曾经“半个娱乐圈”都在吃的自嗨锅,在年轻人生活中无孔不入。

    2023年4月14日
  • 预制菜总招「野蛮人」?

    随着“核酸大王”张核子进军预制菜,这个行业迎来了第三位名声响亮的大佬,而排在张核子前头的,一个是一手缔造瑞幸财务造假的陆正耀,一个是校园贷鼻祖罗敏。尽管如今预制菜竞争异常火爆,近六万家企业争相竞逐,但在这数量庞大的入局玩家中,张核子、陆正耀、罗敏*是最醒目的三个名字,他们的入局,也让预制菜形成了独特

    创投 2023年10月7日
  • 美妆观察:蜂王浆热潮与王浆酸化妆品的崛起_行业动态

    在日本的保健品市场上,蜂王浆长期占据热销榜前列,被民众视为日常养生必备品,甚至有媒体称其为“长寿因子”。这种源自中国的“液体黄金”,在日本的年消费量约占世界总量的60%,已然成为日本民众健康生活的重要组成部分。日本人对蜂王浆的喜爱由来已久。自20世纪50年代起,日本全国开始盛行服用蜂产品,尤其是蜂

    2025年9月4日