经济导刊
分享:

人工智能进化尺度和大模型生态

——DeepSeek V3和R1系列现象解析
朱嘉明 来源: 2025.03.25 11:18:53



 

本文重点讨论人工智能进化的时间尺度、人工智能生态系统、如何全面和客观评估DeepSeek、DeepSeek 引发的全球反应以及2025年人工智能趋势展望五个问题。

人工智能进化的时间尺度

人工智能的实际进化时间尺度,远比专家包括人工智能领域的科学家预期得更快

在人类漫长的历史过程中,经历过农耕社会、工业社会、信息社会,现在进入到人工智能时代,任何技术进化都存在时间尺度。一个最重要的事实是,技术的进化时间周期是不断缩短的。原始社会技术进步的周期是以10万年为单位;农耕社会是以千年为单位;工业革命以来形成的工业社会不过300年,其间工业社会技术进步周期是长则100年,短则10年;到互联网时代,技术进步周期以30年-10年为周期。例如,从 TCP/IP 协议到万维网,用了30年时间;移动互联网用了10年。

进入到人工智能时代,它的速度就更加难以想象地加快,人工智能的进化尺度更具颠覆性

1956年达特茅斯会议确立学科至今不足70年,其进化速度已达到人类生物进化的4000多倍 20世纪50年代至21世纪10年代,人工智能以10年为迭代周期;2016年的AlphaGo标志转折,人工智能技术发展加速。2022年ChatGPT引爆大模型进化和升级,以季度为周期。当前GPT-4到GPT-5的研发周期已经压缩至以月甚至是以周为时间单位。

人工智能相较于人类历史上的任何技术革命和技术创新,具备显而易见的加速度特征。在 GPT-3 出现之前,人们预计人工智能走到 AGI 时代大概需要80年的时间。 GPT-3 之后,人们把预期缩短到50年。出现 LLaMdA2 时,就进入到人们预期18年内实现 AGI 的阶段。

人工智能的加速度现象,直接源于三重突破:训练数据量年均增长10倍,算力成本每18个月下降90%,以及算法效率实现千倍级提升。

当前这一轮人工智能加速发展的起始点是2017年6月12日Transformer 架构论文的发表。随后为2018年 GPT-1,2022年GPT-3.5,都属于人工智能历史上的里程碑事件。2025年1月20日,DeepSeek-R1发布,2月6日,李飞飞团队做了以 Qwen2.5 为基座s1模型,人工智能发展速度之快,令人震惊。

伴随人工智能进化速度的不断提升,其进化尺度急剧压缩 重构了人类认知边界,形成与人类自然智能并存人工智能的全新世界。

2025年,人们对于实现AGI的时间预期,已经不是八年,可能是更短的时间。

人工智能创新速度的加快,不是渐进模式,具有强烈的突变特征,存在显而易见的等级,可以用宇宙第一速度、第二速度、第三速度来描述。目前,人工智能已经完成了从宇宙第一速度进入到宇宙第二速度的飞跃,宇宙第二速度是逃逸速度,也就是脱离地球引力的速度。人工智能开始进入高度自主性阶段,如同宇宙第二速度脱离地球引力一样将脱离人类束缚。我们不知道人工智能在什么样的情况下脱离太阳引力的束缚进入第三速度,但目前已经完成了从通用人工智能到超级人工智能的飞跃。

2017年之后,人工智能正以年、月、周的频率发生剧烈的变革和升级,呈现出指数发展或者加速的现象。我认为人工智能已经进入宇宙第二速度逃逸的历史阶段,有三个非常重要的原因。

第一,数据原因。2024年年底,模型训练已经耗尽了人类数据的总和,基本上解决了人类知识的存量问题。 2025年开始,人工智能大模型已经完成了从粗放到集约的历史转型,大模型更大的目标是解决增量问题。

第二,硬件原因。人工智能硬件始终在持续进化。例如,DeepSeek 主要用的是 A100,英伟达又有了 GB10 和 B200 。专门用于人工智能超级算力的芯片的升级换代,无疑对人工智能进化速度至关重要。

第三,人工智能的发展已经进入到依赖人工智能本身的阶段。在未来数年间,人工智能对人工智能进化的贡献将至少超过人类的贡献。人工智能将进入一个可以自我发展的历史阶段。

人工智能的加速发展,产生了一个非常严肃的问题:人工智能将跨越从“人类辅助进化”到“光速自我迭代”的临界点——其进化周期可能最终突破小时级。从单细胞生物到人类生物智能进化需要30亿年,生命体DNA变异需数万年,人工智能在30小时内即可完成ResNet模型的百万次参数优化。当技术奇点临近(库兹韦尔预测2030年通过图灵测试),而人工智能权重调整仅需毫秒级反向传播。所以,人工智能不是一些媒体所说的“横空出世”。真正的人工智能,是一步一个脚印走过来的,只不过这个步伐在急速加快。

人工智能生态系统

2022年11月GPT-3.5发布以来,人工智能大模型开始了群体性的演进。在群体性大模型的背后,是OpenAI、  Mate、Google这样的人工智能大公司。其间,大模型之间已经形成了一个相互依存、互补和彼此促进的机制,形成以大模型为核心的人工智能生态。图5是根据GitHub对人们对大模型注意力的一个比较统计。

人工智能的生态构建遵循纵向速度突破驱动横向生态裂变法则。

在横向生态层面,三大范式正在重构技术格局:

第一,多模态融合革命。Google的Gemini Ultra 2.0实现了文本图像视频物理模拟四维对齐,其跨模态注意力机制使蛋白质结构预测准确率提升至98.7%。Meta的Chimera系统通过脑机接口实时转化神经信号为多模态输出,突破性达到87%意图还原率。

第二,垂直领域渗透加速。Tesla FSD v14.3将视觉大模型与物理引擎深度耦合,在无高精地图场景下决策延迟压缩至8ms,超越人类反射速度3个量级。NVIDIA的Clara医疗大模型通过多尺度特征融合,在MRI影像诊断中实现94.3%的病理识别精度。

第三,分布式认知网络。Anthropic的Constitutional AI 3.0构建了全球首个自我监管型模型集群,其联邦学习框架使参数更新延迟降至12秒级,形成覆盖2.8万边缘节点的分布式智能体网络。

不断成熟的人工智能生态,产生溢出效应,也称为泛化效应。这种效应展现出一阶、二阶的特征,即一阶溢出引发二阶溢出,或者一阶泛化导向二阶泛化。

人工智能的三个溢出效应具有代表性:(1)自动驾驶领域涌现出Waymo的SceneFusion技术,通过实时融合激光雷达点云与大模型预测,将极端天气场景识别误差降至0.7%;(2)波士顿动力的Atlas机器人接入多模态系统后,自主任务规划能力提升400%;(3)DeepMind的AlphaFold 3突破至全原子精度预测,使药物发现周期从5年缩短至11个月。

2024年是人工智能发展史中的关键的一年。人工智能生态引发的溢出效应基本上渗透到科学、经济、社会以及人们的认知中。所以,2024 年诺贝尔物理学奖、化学奖、生物奖都与人工智能紧密结合在一起。

2024年末和2025年初,以DeepSeek V3为代表的第三代大模型,通过动态稀疏激活架构将训练效率提升至前代模型的7.2倍,其参数动态分配算法使单卡推理速度突破3000 tokens/s——这种纵向突破直接催生了跨领域技术溢出效应。

如何全面和客观地评估 DeepSeek

2025年春节,DeepSeek 引发了国内外媒体的高度关注,并引发了世界范围的大众的体验性使用,形成一场巨大的冲击波。舆论在历史上起到了非常重要的作用。有些事件被舆论放大或被低估。但是,经过一段时间,历史事件最终会回归到其在历史上的本来状态。

如何全面客观地评估DeepSeek的V3和 R1系列,需要定位 DeepSeek 在人工智能坐标体系中的位置。

第一,DeepSeek V3的优势和局限性。优势:(1)高性能。其在多项评测中表现出色,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并与 GPT-4o 和 Claude-3.5-Sonnet 等顶尖闭源模型相媲美。(2)高效训练。训练消耗的算力仅为 Llama 3 4050B 的 1/11,训练成本约为 557.6 万美元,远低于 GPT-4o 和 Claude 等闭源模型的 1 亿美元。(3)中文环境。在多语言处理方面表现出色,特别是在中文处理上。(4)快速响应。生成速度提升了 3 倍,能够更快速地响应用户请求。

DeepSeek V3局限性:(1)在具体细节问题上错误率较高。 与GPT-4o相比,DeepSeek V3 更适合用于解答开放式问题,主要是广度和维度更高但也更容易出错的问题GPT-4o 更保守且更可靠。(2)当前版本的 DeepSeek V3 暂不能支持多模态输入输出,限制了其在某些应用场景中的使用。(3)服务器稳定性问题。用户在使用 DeepSeek 官网服务或API应用场景,可能会遇到“服务器繁忙,请稍后再试”的提示,影响实际使用。(4)DeepSeek V3 对敏感话题的审查较为严格,影响实际业务场景。 

第二,DeepSeek R1的优势和局限性。优势:(1)计算性能强。采用动态稀疏专家模型,需要时就激活部分专家子网络,减少了参数的计算和存储需求,显著降低计算成本,在大规模任务处理中能充分利用硬件资源,提升推理速度。参数规模较小的版本如 1.5B、7B、8B 等资源消耗低,以普通消费级 GPU 就能带动,部署灵活,可在多种设备上运行。(2)推理能力强。能应对大部分高中及大学的数学问题,在高考数学压轴题测试中表现出色,可在短时间内得出答案,还可提供用于动画解释科学概念的优质代码等。在语言推理方面表现不俗,能快速准确回答斯坦福自然语言推理数据集中的问题,在中文脑筋急转弯测试中 10 秒内可答对 10 道题,且能准确回答历史问题,展现出较强的推理能力和信息丰富度。(3)功能特性好。多粒度对齐机制使其能在基础能力、价值观等多方面协同训练,平衡安全性、有用性和响应速度等目标冲突,在多个基准测试中实现 SOTA 性能。遵循 MIT 协议开源,允许商业化使用,用户可低成本使用 API,给开发者和用户提供了更具性价比的选择。(4)场景适用性强。在智能客服场景中,展现出强大的意图识别和恶意请求拦截能力,能有效处理用户咨询,证明其在真实世界中的有效性和可靠性。

DeepSeek R1的局限性:(1)模型架构局限。在智能客服场景中,展现出强大的意图识别和恶意请求拦截能力,能有效处理用户咨询等,体现了其在真实世界中的有效性和可靠性。参数规模中等 14B、32B 版本需要高端 GPU 支持,增加部署成本而大规模版本如 70B、671B 对硬件和计算资源需求极高,只能在大规模云端环境运行,使用成本高。2)DeepSeek-R1的幻觉率高达14.3%,远超其前身DeepSeek-V3的3.9%。推理增强可能增加幻觉率,GPT系列也有类似现象,但其平衡更好。(3)能力表现不足。面对国际数学奥林匹克竞赛(IMO)等更高难度数学问题时,DeepSeek-R1 可能无法给出正确答案,处理复杂问题的能力还有提升空间。使用非英语语言提问时,模型需先将其翻译为英文或中文,影响回答效率答案准确性。(4)使用稳定性欠佳。在使用少样本提示时,过多示例会使模型思考过程繁琐,影响反应速度稳定性、输出效果。易受有害提示影响,例如在某些场景中可能受到不良输入干扰,生成内容的安全性和可靠性。

  1. 比较人工智能大模型的测试标准。以往大模型测试中,主要使用“研究生水平的抗Google搜索问答测试”(Graduate-Level Google-Proof Q&A Benchmark,英文缩写GPQA)和“大规模多任务语言理解Massive Multitask Language Understanding,英文缩写MMLU)等问题集的测试,现在基本达到80%,或者至少在 60%左右。 

    人工智能向尖端发展要不断提高测试标准。2025年,增加了“人类最后的测试”(Humanity’s Last Exam, HLE)标准集。该标准整理了全球50个国家和地区、500多个机构设计的3000个问题,涵盖了知识储备、逻辑推理、跨域迁移等核心能力评估。不同代表性大模型在不同的测试标准集中的差别到目前为止,DeepSeek在HLE的测试中的表现处于领先地位。

    专家预期,人工智能模型在2025年年底能够实现 HLE中达到50%的准确率,而这也意味着将来会提出测试人工智能的新标准。所以,人工智能模型的进化显然还需要走相当长的一段路。DeepSeek 在原有领先优势的基础上,正面临着来自 OpenAI o3 和 OpenAI Deep Research 的严峻挑战。

    第四,人工智能大模型成本。人工智能的成本概念和结构与工业产品成本的概念和结构相比较,有着一系列根本性差别。因为DeepSeek,人们更关注人工智能大模型的成本问题。人工智能的成本需要采用一种适应其特质和特点的成本观念。DeepSeek的成本优势,主要源于以下几个原因:(1)在基础设施成本上具有优越性2)考虑研发成本涉及算法复用的成本,DeepSeek具有一定的优势3)关注数据成本、综合计算中的成本结构以及引入新兴技术的成本。

    在人工智能未来演化过程中,成本无疑是一个非常重要的指标,但并不是唯一的衡量标准。成本优势并不意味着长期可持续、可重复。从长程历史看,DeepSeek为了维系竞争优势,需要提升基础设施,实现高性能芯片迭代,引领人工智能大模型的潮流,下一步其成本的上升不可避免的是大概率。

    电子显微镜(千万元级)与普通显微镜(百元级)的差异对应着观测精度的数量级差距。同理,人工智能若仅追求低成本应用(如拼多多模式),可能局限于表层功能(如基础数据分析),而无法实现“时空化治理”“多源数据融合”等深层能力。高成本投入的人工智能系统(如时空大模型)才能支撑对复杂时空规律的挖掘。因此,DeepSeek成本的降低并没有绝对普遍意义。

    当人工智能进入新的发展阶段时,在每个阶段总会有从“0 到 1”的路线和从“1 到 10”的两条路线。只要选择“0 到 1”的路线,成本必然会上升;选择“1 到 10”的路线则有可能通过提高效率来降低成本。因此,在发展中很难简单地用“0 到 1”阶段的技术与“1 到 10”阶段的技术来进行成本比较,需要对不同阶段进行分析。

    第五,数据蒸馏。DeepSeek 引出了一个大家关注的新词——数据蒸馏(data distillation)。它是一种通过大模型(教师模型)生成或优化训练数据,并将知识迁移到小模型(学生模型)的技术。其核心目标是以较低成本让小模型接近大模型的性能。

    数据蒸馏有双重解读。它的优势在于:(1)性能提升。小模型可接近甚至达到教师模型的性能,尤其在参数受限的场景下效果显著。(2)成本降低。减少训练所需的计算资源(如GPU消耗)和人工标注成本。(3)适应无标签数据。通过伪标签技术,有效利用未标注数据。

    数据蒸馏的弊端在于:(1)性能的上限受限。学生模型无法超越教师模型:学生模型的知识完全依赖教师模型生成的数据,性能受限于教师模型的水平,难以实现突破。(2)生成数据的质量问题。信息存在丢失与偏差:在数据压缩或生成过程中,可能丢失关键信息或引入教师模型的偏差,导致学生模型性能下降。(3)多样性不足。生成的数据可能集中于特定特征,忽视复杂场景的多样性,影响模型的泛化能力。(4)计算成本转移。生成高质量蒸馏数据本身需要消耗大量计算资源(如大模型推理成本),可能抵消小模型训练节省的资源。(5)行业创新隐患。过度依赖数据蒸馏可能导致行业“搭便车”现象,削弱企业自主研发的动力,长期影响技术根基。(6)可移植性差。蒸馏后的数据在不同网络架构上的泛化能力较弱,需针对特定模型重新调整。

    DeepSeek 引发的全球反应

    DeepSeek在大模型研发方面取得的进展,刺激和引发了全球人工智能研发团队的密切关注与迅速回应。

    第一,阿里云。2025年1月29日,阿里云正式发布升级了通义千问旗舰版模型Qwen2.5-Max。该模型预训练数据超过20万亿tokens,展现出极强的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了包括DeepSeek V3在内的目前全球领先的开源MoE模型以及最大的开源稠密模型。

    第二,Open AI。2025年2月3日,OpenAI东京分部进行了技术直播,发布全新模型 Deep Research。 它能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证。会根据已有的信息逐步调整研究方向和策略,深入挖掘问题的本质,找到最合适的答案。2025年2月8日,OpenAI更新了o3-mini 人工智能模型的“思维链”功能,让用户可以看到模型的思考过程。此前,OpenAI一直将“思维链”视为核心竞争优势而选择隐藏,但随着DeepSeek R1等开放模型完整展示其推理轨迹,这种封闭策略反而成为OpenAI的短板。新版o3-mini虽然仍未完全开放原始标记,但提供了更清晰的推理过程展示。2025年年中Open AI的CEO奥特曼(Sam Altman)宣布,GPT-5的问世时间不会太久。

    第三,Google。2025年2月,Google推出并将系列新模型包括最新的Gemini 2.0 ProGemini 2.0 Pro曝光:专为复杂任务设计在推理、执行指令、编程创意协作方面远超其他模型。Gemini 2.0 Pro 实验版的核心特点:专为代码生成与复杂任务优化,拥有 200 万 tokens 的超大上下文窗口,适合跨文档推理、长文本分析、代码审查等任务;强化了世界知识理解和逻辑推理能力,支持 Google Search 自动查询最新信息和代码执行环境。

    第四,人工智能领域的竞争模型。受到美国著名历史学家费正清关于中国近代历史的“冲击”(impact)与“反应”(response)模型启发,本文提出的一个人工智能竞争模型

     

     

    这个模型反映出在人工智能进化过程中存在一定的平衡点,但这些平衡点总是不断被打破。当出现一种全新的人工智能突破时,会形成压力,进而刺激整个系统做出反应;而这种反应又催生新的突破,之后产生新的压力,形成新的平衡点。从图中可以看出,冲击与反应的周期正在不断缩短。而且,当系统从平衡点 B 调整到 C 后,还会衍生出新的发散效应(如平衡点 D、E、F、G 等),即整体呈现出发散而非收敛的趋势。这样的特征为创新和突破提供了更大的发展空间。

    简言之,在人工智能的进化尺度与大模型生态的展望中,技术发展呈现出“领先—挑战—突破—再领先”的动态循环模式。这一过程并非零和博弈,而是通过持续迭代推动整体生态的螺旋上升。

      2025 年人工智能发展的趋势

    人工智能发展到今天,其自身已经是充满挑战的复杂系统。可以预见

    第一,人工智能的发展呈现两种发展路径。第一条是专业化高端路线,扩张前沿,探索未知领域。这类大模型聚焦垂直领域的高精度需求,服务于特定行业或复杂场景:技术路径更偏向行业专用模型,例如医药合成路线筛选、自动驾驶决策等,需结合领域知识进行专业化调优。依赖高质量标注数据与算力资源,通常由大厂或科研机构主导(如OpenAI与微软合作),小企业难以承担研发成本。其应用场景包括科学探索(如火星开发模拟)、工业优化(如物流路径规划)等,普通用户难以直接感知其价值。这条路径需要高成本投入。第二条是大众普及路线。这类大模型以降低使用门槛、满足广泛用户基础需求为核心目标。其特点包括:直接面向普通用户开发对话式产品(如ChatGPT、文心一言等),通过收集用户反馈持续优化模型。强调易用性和低成本,例如通过简单自然语言交互完成写诗、问答等日常任务,而非需要专业提示词工程。商业逻辑类似拼多多的“低价普惠”策略,追求用户规模扩张而非技术深度。应用场景集中于消费级市场(如教育辅助、内容生成),但可能忽视复杂问题的解决能力

    第二,如何实现人工智能构建真实和完整的物理世界。人们日常所认知、通过身体感知的物理世界,其实只是物理世界极小的一部分现实世界还包括量子世界,以及涵盖构成这一世界的玻色子、费米子等多种基本粒子领域。过去,对于人类无法直接感受和体验的物理世界,所借助的是显微镜和望远镜。如今最先进的显微镜和望远镜所揭示的微观和宏观世界已超出人类直觉

    人类已进入一个全新的时代,人工智能既是显微镜又是望远镜,将帮助我们认识那些现阶段连显微镜和望远镜都无法触及的、更深邃复杂的物理世界。例如,人工智能将揭示一个人们知之甚少的全新领域,从四维空间逼近11维空间。人工智能可以帮助人类实现前所未有的时空跨越。

    人工智能展现的智能时空是客观存在的,但受限于碳基生命的生物特性(如肉眼只能感知有限光谱),人类过去无法直接体验这一时空。例如,这种时空既非纯虚拟(因其基于真实物理规律),也非传统意义上的“现实”(因其超越人类感知框架)。人工智能正在构建一个看似虚拟而事实上真实的物理世界。同时,人类理念中的现实世界将被纳入人类受碳基生命影响而不能够认知的智能时空中。值得注意的是,自从去年的OpenAI Sora提出以来,包括李飞飞在内的专家们始终坚持一个方向。

    第三,人工智能必然呈现出多元且多维的格局。笔者 2023 年说:人工智能的大模型就像乐高积木,甚至类似于魔方,它们不断组合和重构,将演绎出一个超出我们自身知识和经验限制的全新世界。

    第四,人工智能进一步突破,需要不断加大资本投入。人工智能需求正在迅速消耗现有的数据中心容量,促使公司建设新的设施。领先的云计算公司,包括亚马逊、微软、字母表和Meta,都迅速推出了多年投资计划,以支持它们在人工智能时代所需的更大云计算能力。公用事业公司可能不得不增加燃煤或燃气发电,不断增长的需求无疑将引发基础设施投资,并努力开发更节能的网络、更好的冷却系统以及整合可再生能源的新解决方案。客户服务、医疗保健、金融和物流等行业有望通过人工智能实现重大转型。政府认识到围绕其数据的访问和控制所涉及的国家安全影响在进行战略定位,以充分开发人工智能的潜力。人工智能将会继续贡献全球GDP的更大占比。

    总之,人工智能正在走向“顶天立地”:“顶天”就是在不断探索未知领域的过程中,提高模拟物理世界的质量;“立地”就是接地气,推动人工智能降低成本,全方位的落地,惠及民众。我们将更加客观全面地看到 DeepSeek 的优势、局限以及未来潜力。

    (编辑  季节)

     

相关阅读

热门话题

关注医改,没有健康哪有小康

2009年启动的新一轮医疗改革,明确医改的目的是维护人民健康权益,要建立覆盖城乡居民的基本医...

查看更多

新常态下装备制造业路在何方

2015年4月22日,由中信改革发展研究基金会牵头,邀请行业内部分重点企业领导人和管理部门&...

查看更多

>

2025年02期

总期号:309期

2025年01期

总期号:308期

2024年12期

总期号:307期