全网都在扒的DeepSeek团队是清北应届生撑起一片

新闻资讯

News

咨询电话

400-123-4567

手机：13988999988
电话：400-123-4567
传真：+86-123-4567
邮箱：[email protected]
地址：广东省广州市天河区88号

微信扫一扫

行业新闻

当前位置：

主页 > 新闻资讯 > 行业新闻 >

全网都在扒的DeepSeek团队是清北应届生撑起一片

作者：[db:作者]日期：2025/01/05 08:36浏览：

DeepSeek-v3年夜模子横空降生，以1/11算力练习出超越Llama 3的开源模子，震动了全部AI圈。紧接着，“雷军开万万年薪挖DeepSeek研讨员罗福莉”的风闻，也使得人们把眼光聚焦向DeepSeek的人才。这下不仅科技圈，全网都在猎奇，连小红书上都有人发帖讯问，这毕竟是一只怎么的团队？国际上，也有人把开创人梁文锋的访谈翻译成英语，还加了解释，试图从中寻觅这家公司突起的蛛丝马迹。量子位收拾种种材料发明，DeepSeek团队最年夜的特色就是年青。应届生、在读生，特殊是来自清北的应届生在此中十分活泼。他们中的一些人，2024年一边在DeepSeek搞研讨，另一边新颖热乎的博士学位论文刚评上奖。他们中有的参加了从DeepSeek LLM v1到DeepSeek-v3的全程，有的只是练习了一段时光也做出主要结果。为DeepSeek提出MLA新型留神力、GRPO强化进修对齐算法等要害翻新的，多少乎都是年青人。DeepSeek中心成员揭秘2024年5月宣布的DeepSeek-V2，是以致这家年夜模子公司破圈的要害一环。此中最主要的翻新是提出了一种新型留神力，在Transformer架构的基本上，用MLA（Multi-head Latent Attention）替换了传统的多头留神力，年夜幅增加了盘算量跟推理显存。在一众奉献者中，高华佐跟曾旺丁为MLA架构做出了要害翻新。高华佐十分低调，现在只晓得是北年夜物理系结业。别的，在“年夜模子创业六小强”之一阶跃星斗的专利信息中也能够看到这个名字，暂不断定能否是统一人。而曾旺丁来自北邮，研讨生导师是北邮人工智能与收集搜寻教研核心主任张洪刚。DeepSeek-V2任务中还波及到了另一项要害结果——GRPO。DeepSeek-V2宣布前三个月，DeepSeek-Math问世，此中提出了GRPO（Group Relative Policy Optimization）。GRPO是PPO的一种变体RL算法，废弃了critic模子，而是从群体得分中预算baseline，明显增加了练习资本的需要。GRPO在圈内失掉普遍存眷，另一家海内开源年夜模子阿里Qwen 2.5的技巧讲演中也流露用到了GRPO。DeepSeekMath有三位中心作者是在DeepSeek练习时期实现的任务。中心作者之一邵智宏是清华交互式人工智能（CoAI）课题组博士生，师从黄平易近烈教学。他的研讨范畴包含天然言语处置、深度进修，特殊对怎样能构建一个持重且可扩大的AI体系感兴致，这个AI体系能应用多样化的技巧整合异构信息，并能正确答复种种庞杂的天然言语成绩。邵智宏之前还曾在微软研讨院任务过。DeepSeekMath之后，他还参加了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等名目。另一位中心作者朱琪豪是北年夜盘算机学院软件研讨所2024届博士结业生，受熊英飞副教学跟张路教学领导，研讨偏向为深度代码进修。据北年夜盘算机学院官方先容，朱琪豪曾宣布CCF-A类论文16篇。在ASE跟ESEC/FSE上分辨取得ACM SIGSOFT出色论文奖一次，提名一次。一篇论文进入ESEC/FSE集会同年的援用前三名。在DeepSeek团队，朱琪豪还基于他的博士论文任务，主导开辟了DeepSeek-Coder-V1。其博士论文《言语界说感知的深度代码进修技巧及利用》也当选了2024CCF软件工程专业委员会博士学位论文鼓励打算。△图源：北京年夜学盘算机学院大众号另有一位中心作者同样来自北年夜。北年夜博士生Peiyi Wang，受北京年夜学盘算言语学教导部重点试验室穗志方教学领导。除了DeepSeek-V2 MLA、DeepSeekMath GRPO这两项要害破圈结果，值得一提的是，另有一些成员从v1就参加此中，始终到v3。代表人物之一代达劢，2024年博士结业于北京年夜学盘算机学院盘算言语所，导师同样是穗志方教学。△图源：北京年夜学盘算机学院大众号代达劢学术结果颇丰，曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖，在各年夜顶会宣布学术论文20篇+。2024年中国中文信息学会“博士学位论文鼓励打算”共当选10篇来自中国年夜陆高校的博士结业论文，此中就有他的《预练习言语模子常识影象的机理剖析及才能加强要害技巧研讨》。以及北年夜元培学院的王炳宣。王炳宣来自山东烟台，2017年进入北年夜。硕士结业参加DeepSeek，参加了从DeepSeek LLM v1开端的一系列主要任务。清华这边的代表人物另有赵成钢。赵成钢此前是衡水中学信息学比赛班成员，CCF NOI2016银牌得主。之后赵成钢进入清华，年夜二时成为清华先生超算团队正式成员，三次取得天下年夜先生超算比赛冠军。赵成钢在DeepSeek担负练习/推理基本架构工程师，有英伟达练习阅历。DeepSeek是一支怎么的团队这些鲜活的集体，足以激发人们的惊叹。但还缺乏以答复最初的成绩，DeepSeek究竟是一支怎么的团队？有怎么的构造架构？谜底或者还要从开创人梁文锋身上找。早在2023年5月，DeepSeek刚发布了局做年夜模子，还没宣布结果的时间，梁文锋在接收36氪旗下「暗涌」采访时流露过招人尺度。看才能，而不是看教训。咱们的中心技巧岗亭，基础以应届跟结业一两年的工资主。从前面一年多连续宣布的论文奉献名单中也能够看出，确切如斯，博士在读、应届以及结业一两年的成员占很年夜一局部。即便是团队leader级别也偏年青化，以结业4-6年的为主。比方引导DeepSeek的后练习团队的吴俣，2019年北航博士结业、在微软MSRA参加过小冰跟必应百科名目。吴俣博士时期接收北航李舟军教学跟MSRA前副院长周明博士的结合培育。与他师出半个同门的是郭达雅，中山年夜学印鉴教学与MSRA周明博士结合培育，2023年博士结业。2024年7月他参加DeepSeek，重要参加了一系列数学跟代码年夜模子的任务。郭达雅上学时期另有一项业绩，本科时期在MSRA练习一年里宣布两篇顶会论文，他笑称“在刚退学的第三天，就实现了中年夜博士生的结业请求。”除了团队成员年青化之外，DeepSeek在海内AI公司中凸起的特色：十分器重模子算法跟硬件工程的共同。DeepSeek v3论文统共200位作者，并不都是担任AI算法或数据。有如许一批人从晚期的DeepSeek LLM v1到v3始终都在参加，他们更多倾向算力的局部，担任优化硬件。他们以DeepSeek AI的名义宣布了论文《Fire-Flyer AI-HPC》，经由过程软硬件协同计划下降练习本钱，处理传统超算架构在AI练习需要上的缺乏。Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群，应用英伟达A100 GPU，却做到比拟英伟达官方的DGX-A100效劳器有本钱跟能耗的上风。这支团队中有的人在英伟达任务或练习过，有的来自同在杭州的阿里云，也有很多人从幻方AI借调又或罗唆转岗到DeepSeek，参加了每一项年夜模子任务。而如斯器重软硬件协同的结果，就是以Llama 3 405B的1/11算力，练习出机能更高的DeepSeek-v3了。最后，咱们还发明DeepSeek开源名目中有一个特殊的存在，不是言语模子相干任务，倒是3D天生相干。这项结果由清华博士生孙景翔在DeepSeek练习时期，与导师刘烨斌以及DeepSeek成员配合实现。像如许练习生在DeepSeek做出主要结果的另有中山年夜学逻辑学专业的辛华剑。他在DeepSeek练习时期参加了用年夜模子证实数学定理的DeepSeek-Prover，当初在爱丁堡年夜学读博士。看过这些例子，再一次回到梁文锋的访谈，或者更能懂得这只团队的运作构造。不做前置的岗亭分工，而是天然分工每团体对卡跟人的变更是不设下限的，每团体能够随时挪用练习集群，只有多少团体都有兴致就能够开端一个名目当一个idea表现出潜力，也会自上而下地去分配资本。这未免让人想起AI界另一家弗成疏忽的力气，没错就是OpenAI。同样的用人不看教训，本科生、停学生只有有才能还是招出去。同样的重用新人，应届生与00后能够变更资本从无到有研讨Sora。同样的面临潜力偏向，全部公司从顶层开端计划规划跟资本推进。DeepSeek，可能是构造状态上最像OpenAI的一家中国AI公司了。义务编纂：随心文章内容告发 ]article_adlist--> 　　申明：新浪网独家稿件，未经受权制止转载。 -->

上一篇：天玑84神仙道神仙道-Ultra全大核CPU加持，REDMI Tu
下一篇：没有了