今年年初,深度求索(DeepSeek)公司发布现象级大模型DeepSeek-V3和R1,立刻引起全球重点关注和广泛讨论。分析认为,前沿科技领域的战略性突破并非简单依赖资源优势的线性累积,而是需要在基础能力储备、创新路径选择和市场战略布局等方面形成系统性突破的协同效应,从而实现产业创新发展的跨越式进步。深度求索公司的创新突破,为我国面临外部约束的前沿科技领域提供了具有普遍意义的参考框架,对构建以企业为主体的创新体系具有重要借鉴意义。
DeepSeek开启“小而美”的第二创新路径
DeepSeek R1基于V3模型实现关键技术突破。R1与V3并非孤立两大模型,R1作为基于V3 6710亿参数的混合专家模型,较为均衡高效,每个Token激活了约370亿参数。模型采用多头潜注意力(MLA)机制和DeepSeek MoE架构的双重创新,其中MLA通过低秩键值联合压缩技术显著降低KV缓存大小,配合改进的RoPE编码实现2-4倍计算效率提升;MoE架构采用细粒度专家与通才专家结合的设计,通过无辅助损失的负载均衡策略,使训练计算量较同类模型减少约90%。创新性的架构设计不仅解决了传统MoE模型训练难以收敛的问题,并通过将知识空间进行离散细化,更加逼近连续多维知识空间。
训练体系创新带来显著成本优势。基于自研框架,R1采用16路流水线并行与64路专家并行的混合架构,在2048卡H800集群上仅用57天完成14.8万亿Token数据集训练,总成本控制在558万美元,较GPT-4业界估算数亿美元节省显著。FP8混合精度训练框架首次在超大规模模型上得到验证,DualPipe算法实现计算与通信深度重叠,有效提升训练效率。在具体实施层面,DeepSeek采用两层胖树拓扑结构配合英伟达InfiniBand技术作为集群架构,其创新设计相比英伟达DGX-A100标准万卡集群的三层胖树架构,将所需交换机数量从1320台降至122台,节省约40%的互连成本。此外,通过研发针对硬件架构优化技术,实现了训练效率的进一步提升。
引入强化学习赋能通用大模型迭代演进。R1-Zero首次验证纯强化学习训练的可行性,展现自我验证、反思等高级认知能力。在训练过程中,DeepSeek创新性地采用了Group Relative Policy Optimization(GRPO)策略代替传统的PPO方法,通过组内奖励对比来优化策略,避免了复杂价值模型的依赖。奖励机制的设计同时考虑了准确性奖励和格式奖励,要求模型将推理过程封装在特定标签内,确保输出的规范性和可读性。应当注意到,在R1-Zero的训练过程中,模型也出现“顿悟时刻”,可以在解题过程中主动纠正早期的错误步骤,初步展现出部分自主学习能力。
技术突破推动产业落地普及。通过蒸馏技术将R1的能力迁移至Llama和Qwen等开源架构,发布从1.5B到70B的系列轻量模型。以7B参数规模为例,在AIME 2024测试中达到55.5%的通过率,超越同级别小尺寸模型性能,14B蒸馏模型仅需普通计算卡即可本地部署,为边缘计算等资源受限场景提供解决方案。在通用对齐方面,融入了人类偏好奖励模型,在确保开放域任务安全性与实用性的同时,也为低成本商用部署提供了可靠保障。普惠化的技术设计充分考虑了实际应用场景的需求,通过高效的能力迁移确保小型模型也能获得强大的推理能力,展现出“小而美”的应用独特优势。
DeepSeek开启第二创新路径的四大核心着力点
推理模型正重塑大模型发展格局。新一批推理模型近期集中发布,OpenAI的O3以其卓越的数学推理能力,在MATH基准测试和国际数学奥林匹克竞赛中刷新了此前纪录;Google的Gemini 2.0 flash thinking展现出超越传统对话模型的复杂推理链;Kimi 1.5通过基于长上下文窗口扩展的强化学习框架形成推理能力;特斯拉的Grok-3的思考模式也在代码推理及工程问题上显示出独特优势。以DeepSeek R1为代表的推理模型集中展示了大模型推理范式的新发展方向,不再局限于简单的思维链模板,而是展现出更接近人类的推理过程。其中,DeepSeek团队创新性地采用纯强化学习方法训练R1-Zero,完全摒弃了预设思维模板和复杂的奖励模型,为行业开启了一条全新技术路线。
全新RL Scaling Law展现了大模型能力提升的第二范式。传统“暴力美学”Scaling Law主导的“唯算力论”发展范式,虽然在近几年极大程度推动了大模型参数规模扩张和能力提升,但粗放式增长模式已面临显著瓶颈。预训练阶段的Scaling Law曲线趋于平缓,投入产出比持续下降,而基于强化学习的推理训练展现出更为优异的增长态势。通过奖惩机制,模型能够快速建立起逻辑推理能力,学习效率提升远超传统方法。从DeepSeek R1的实践来看,强化学习训练产生的原生推理能力,能够有效带动模型在语言理解、知识表征等多个维度的协同进步。重推理而非重规模的提升方式有望为通用人工智能的实现提供关键突破口。
模型架构创新和计算基座优化并重成为高价值学习方案。在模型算法架构层面,DeepSeek团队引入了多头潜注意力机制,配合改进的RoPE编码技术,有效压缩了KV缓存容量并显著提升了整体计算效率,辅以DeepSeekMoE架构中细粒度专家与通才专家结合的负载均衡策略,不仅解决了传统MoE模型训练收敛困难的问题,而且实现了知识空间的离散细化和高效表达。在硬件底层优化方面,团队在计算基础设施方面进行了突破性改造,通过采用两层胖树拓扑结构和深度通信重叠策略,多路流水线并行及专家并行相结合的混合架构设计,使得整体训练效率和系统稳定性大幅提升。协同并重保证了模型在有限资源下实现高效运算和精准推理的目标,也为我国大模型自主研发提供了可持续、低成本的技术支撑,展现出“中国方案”独树一帜的发展优势,为未来大模型训练模式的演进和智能能力升级提供了重要学习方向。
DeepSeek 已成引领全球开源大模型发展的新典范
第一次使国产AI大模型真正进入国际民众视野而非局限专业领域。2025年1 月26日,DeepSeek应用程序首次登顶苹果App Store下载排行,1 月28日起,稳居美国Google Play榜首,发布前18天内实现1600万次下载,约为ChatGPT 同期下载量的2 倍。QuestMobile 数据显示,2月1日DeepSeek日活突破3000 万,成为史上最快突破3000万日活的APP。DeepSeek的爆火引发各界热议。美国总统特朗普表示DeepSeek的模型高效且经济,其出现是一种积极的发展,同时也给美国相关产业敲响了警钟。OpenAI创始人奥特曼也表示,其闭源策略站在历史错误一边,需认真思考开源策略。微软CTO科特承认,DeepSeek用1/5的成本实现了微软90%的性能。英伟达发言人称DeepSeek是AI 领域的一项卓越进步。同时,海外企业也积极跟进。OpenAI受DeepSeek竞争压力影响,快速发布o3-mini和GPT4.5,并宣布GPT-5将尽快发布并给予免费用户一定使用额度。谷歌紧急重启已搁置的“太极计划”,要求AI团队“像DeepSeek一样思考”,甚至允许工程师使用竞争对手的框架。
第一次使国产AI大模型发展迎来了属于自己的“安卓时刻”。此次,DeepSeek凭借远大于过往开源AI大模型的开放力度,成功吸引了国内外主流软、硬件厂商纷纷开展适配,正加速演进为新一轮全球AI创新的技术底座,并有望借此广泛凝聚全球开发者智慧共建一个全新的开放、共享、协同的AI大模型发展生态。正如过去Google公司开源的Android项目开启了全球移动互联网发展的黄金时代,本次开源的DeepSeek模型或将开启AI 2.0时代,打通“模型—芯片—系统”一体化生态,并推动其高速发展。芯片领域,不仅十余家国产芯片厂商均已与DeepSeek开展适配,连美AMD公司也将DeepSeek-V3集成到其GPU产品,并针对AI推理进行了优化。云计算领域,亚马逊等美国科技巨头积极宣布已接入DeepSeek-R1,中国移动、中国电信、中国联通、阿里云、百度云、华为云等多家国产云厂商也已完成接入。终端领域,华为、荣耀、OPPO等国产手机厂商官宣接入DeepSeek-R1,美国Apple公司也宣布在自家Apple Intelligence(苹果智能)中测试了DeepSeek,大朋VR、星纪魅族等厂商的AR/VR 眼镜也将搭载DeepSeek产品,近20家车企宣布与DeepSeek达成深度合作。金融资本领域,美国红杉资本已率先设立2亿美元的专项基金用于投资DeepSeek技术生态项目。
第一次有效推动了全球AI普惠平权发展。此前,大模型创新路径较大程度上陷入了美国“唯资源论”思维定势,发展、使用都集中在算力、数据资源的富集方。例如,美国政府与OpenAI等企业联合发起的人工智能基建“星际之门”项目投资高达5000亿美元,法国版“星际之门”计划投资高达1090亿欧元。此前Meta也计划2025年在AI领域投资600亿-650亿美元,用于AI基础建设。DeepSeek开源,成功证明了纯强化学习(RL)训练方法在提升大模型推理能力方面的可行性,开辟了大模型能力提升不依赖“Scaling Law”的“第二路径”,为在有限算力条件下实现大模型“小而美”发展提供了案例支撑。由于其模型推理成本及定价远低于国际主流模型,对于资源相对匮乏的“全球南方”国家具有重要意义,有助于缩小全球“智能鸿沟”。
DeepSeek取得成功的实践启示
基础能力方面,前瞻性战略布局体现了关键价值。DeepSeek基础设施前瞻部署具有重要参考意义,其早在2012年便开始系统性布局算力资源储备,累计投入数十亿元构建深度学习训练平台体系,为后续技术创新奠定了坚实硬件基础架构。同时,DeepSeek通过量化交易领域长期沉淀的数据处理方法论与机器学习技术应用实践,成功实现了向人工智能前沿领域的战略跨越。在人才梯队构建方面,通过建立以年轻化、专业化研发团队为核心的人才培养体系,形成了富有创新活力与技术突破动力的人才生态。
创新路径方面,开创了软硬协同的系统化创新体系。DeepSeek系统性创新方法对前沿科技领域的突破具有普遍性启示意义:应当突破单一技术路径依赖的思维定势,通过多维度工程技术创新的有机整合与协同演进,形成具备一定引领优势的系统解决方案。在技术共享机制设计上,DeepSeek采取开源战略促进技术进步路径,与全球开发者社区的互动协作推动技术快速迭代与优化,通过开源合作战略汇聚全球创新资源,加速核心技术突破与创新生态构建。在研发效率上,DeepSeek通过创新性训练方法将模型训练成本降至行业平均水平的十分之一以下,实现了低资源投入与高创新产出的卓越研发效能。在迭代优化响应机制方面,通过敏捷开发方法与持续优化流程,确保技术创新与市场需求的紧密衔接与动态协同。
市场布局方面,DeepSeek的差异化定位与开源普惠路线构建了独特的战略发展思路。DeepSeek差异化竞争策略的精准把握,体现为战略性避开与具备资源优势的头部企业直接竞争,而在开源领域建立独特优势。在商业模式设计上,采取低成本普惠路线的战略选择,通过显著降低服务价格扩大市场影响力,推动行业生态的良性发展。在生态系统构建方面,通过开源开放吸引全球开发者广泛参与,形成良性循环的创新生态网络。
DeepSeek助力打造人工智能产业发展新生态
深化行业融合应用,释放智能转型生产力。DeepSeek的崛起正以其独特优势为各行业智能化转型注入新动能。在智能终端领域,其显著的成本优势和开放技术架构推动了多场景应用创新。智能手机方面,华为、荣耀、OPPO等国内六家头部厂商已宣布接入DeepSeek,并积极探索端侧部署方案以增强用户隐私保护。智能网联汽车方面,比亚迪、吉利、东风等主流车企密集接入DeepSeek并开展深度融合,优化智能座舱的交互体验,通过低成本的训练方案推动自动驾驶技术普及,加速汽车产业从电动化竞争向智能化竞争跃迁。在金融领域,DeepSeek高效的模型架构带来了业务质量的显著提升。如江苏银行率先本地化部署微调 DeepSeek-VL2多模态模型和DeepSeek R1推理模型,DeepSeek-VL2在合同质检场景的准确率达到 96%,较通用版本提升12%。
开创了“行业知识+基础模型”的混合智能模式。对中小银行而言,DeepSeek 低算力要求的特点更是为突破技术门槛、缩小与大行差距提供了新机遇。在内容创作领域,DeepSeek强大的自然语言处理能力带来了创作模式的革新。通过贴近人类思维的文本生成和灵活的风格定制,可为创作者提供更智能、更个性化的创作支持。国脉文化“AIGC+生态合作”平台已成功接入DeepSeek大模型,可进一步提升短剧制作、文旅内容生成等方面的创作效率。这种基于高性能与低成本优势的产业赋能实践,为我国各行业智能化转型提供了新的发展路径。
打通产业链上下游,创造产业发展新机遇。DeepSeek的崛起对我国人工智能产业发展带来全方位影响。在硬件支撑方面,其高效架构显著降低了模型训练对高端计算设施的依赖,为我国人工智能芯片产业带来重要发展机遇,提供了技术验证和商业化机会。华为昇腾、沐曦、天数智芯等多家企业已完成与DeepSeek 的深度融合和适配,加速推动“国产芯片+国产大模型”的闭环生态建设。在算力服务方面,DeepSeek的火热为算力服务商带来巨大商业价值,阿里云、华为云、百度智能云等主流云服务商已完成接入,三大运营商也通过各自平台提供专属部署和算力支持,其中,中国移动和中国电信相继宣布推出DeepSeek智算一体机。DeepSeek与云服务商及智算企业的深度合作,有利于通过生态整合扩大用户覆盖,并为算力服务市场注入新的增长动能。在促进应用发展方面,DeepSeek的API定价远低于市场主流水平。作为基础服务层显著降低了人工智能应用的集成门槛,加速释放市场需求。多层次的产业带动效应,加速推动我国人工智能产业从应用跟随迈向技术引领的战略跃升。
下一步建议
加强AI创新体系的系统化部署。DeepSeek通过优化架构、提高资源效率等方式取得突破,证明了中国AI企业有能力在外部限制下实现自主发展,极大提振了我国AI产业的信心。与此同时,我国在AI基础理论研究领域尚未有里程碑式的框架创新,目前大模型能力还无法掌握人类的长期记忆和长期学习能力,仍需加强AI创新体系的系统化部署。建议:一是鼓励高校聚力人工智能领域基础理论研究,加强人工智能与脑认知、神经科学、心理学等学科的交叉融合,聚焦人工智能领域重大基础性科学问题,推动实现原创性理论体系创新突破。二是进一步深化“人工智能揭榜挂帅”活动,聚焦大模型架构创新、算法优化、软硬件协同等方向,增设揭榜挂帅和高质量专项相关攻关项目。
统筹推进算力基础设施建设布局。DeepSeek在模型算法架构方面的创新虽然显著降低了训练算力需求,但因成本优势激发下游AI应用爆发,庞大用户基数下,未来推理算力市场需求将显著增加,需要国家在算力布局方面加强统筹。建议:一是科学评估我国智算资源供需情况,在算力建设适度超前布局的大前提下,结合大模型市场应用需求,做好智算建设“十五五”规划,建设一批高性能、低能耗、绿色化的智算中心。二是统筹推进国产算力平台建设布局,优化国产算力软硬协同生态建设,鼓励算力产业上下游基于主流开源大模型进行行业适配,加速构建“国产模型-国产系统-国产芯片”AI产业闭环。
打造大模型场景化落地标杆示范。DeepSeek带动大模型的商业运营模式由付费使用进入“免费普惠”阶段,倒逼大模型产业链寻求可持续的商业闭环。无论在硬件上的国产芯片适配方面,还是软件上的模型云化部署方面均存在规模效应,亟需推动大模型加速场景化落地和规模化推广。一是加快推进人工智能行业应用基地建设,在条件合适的区域打造一批赋能模式突出、应用效益较好的有示范带动效应的行业应用基地。二是加快建设大模型赋能典型应用场景,在智能制造、智慧医疗、智慧政务等领域选树一批成效较好的标杆场景,形成可复制可推广的实践经验。三是加快推动制定人工智能大模型行业应用标准规范,在模型选型、应用开发、效果评测等方面提供统一规范,降低企业试错成本和资源重复投入。
完善大模型行业应用服务生态。DeepSeek开源显著降低了大模型应用门槛,但由于大模型技术迭代速度快、应用场景复杂以及大中小企业缺乏专业团队等问题,其落地还需要专业的第三方服务机构支持,打通模型到应用的“最后一公里”。一是完善各行业、各区域大模型公共服务平台建设运营,聚焦工具支持、算力服务、公共云服务、数据共享开放、应用场景测试验证等提升平台服务效能。二是培育孵化一批第三方服务机构,完善基于领先开源大模型的场景化部署和服务业务链条,打造大模型行业应用创新生态。
(编辑 杨利红)








