世界正目睹来自边缘物联网传感器(从无人机到风力涡轮机,再到制造机器人)收集的数据量呈爆炸式增长。随着数以十亿计的新传感器和泽字节级的额外数据在不久的将来上线,边缘带来了巨大的机遇与挑战。历史上,一直专注于获取将这些数据集成到集中式平台的能力,以实现数据驱动的决策。然而,如今这一策略正变得越来越不理想。许多最有价值的潜在行动——无论是在作战还是制造中——都具有时间敏感性。将数据传回云端进行处理和分析,意味着高优先级目标可能已经改变位置,或者可能已发生运行故障。竞争优势将属于那些能够在边缘设备上、在潜在断连的环境中于数秒内做出决策的组织。
Palantir边缘人工智能(Edge AI) 是 Palantir 的人工智能编排与传感器融合引擎,可实现跨边缘设备和环境的自主决策。它专为时间和效率至关重要的场景而设计,可在低带宽、低功耗条件下运行,包括在无人机、飞机、船舶、机器人、建筑和卫星上。
本文探讨了组织通常如何实现边缘自主决策的目标,以及 Palantir Edge AI 的关键技术支柱。
01 开放模型管理基础设施
虽然大多数人工智能公司倾向于专注于提供开箱即用的单一模型,但Palantir为各组织提供的是端到端的人工智能/机器学习解决方案。Palantir可集成任何类型或复杂度的数据——例如海量传感器和流视频数据——然后执行有关数据质量、溯源和清洗的关键任务,从而为模型生成可用的数据资产。完整的人工智能/机器学习基础设施提供了独立地对模型进行版本控制、测试、发布和部署的能力。用户可插入来自任何供应商的模型,并并排比较其性能——从而避免人工智能解决方案常常带来的供应商锁定。
02 基于微模型的动态模型编排
当今人工智能/机器学习领域的最大挑战在于定义有价值、可解决的问题,并持续针对这些问题部署模型。Palantir Edge AI通过一项名为"微模型"的新技术来应对这一挑战。微模型是模块化的、围绕可衡量目标设计的、针对特定操作的模型。它们可以是自研的、开源的或第三方的算法。
微模型与环境无关,能够独立运行或使用上游模型的输出。通过这种方式允许您分离人工智能流水线的逻辑部分,Palantir Edge AI帮助组织将模型开发、评估和训练工作下放给内部团队和外部供应商——从而提升生产力、质量、迭代速度和发布节奏。
03 自适应运行时配置
为了在边缘提供灵活性,模型可以作为处理器串行或并行运行。串行运行允许模型利用上游模型的信息。并行运行有助于减少延迟并更高效地利用硬件。关键的是,用户可以实时热插拔模型,而不会中断系统中传感器数据的流动。这也意味着,如果一个模型崩溃,不会影响依赖该传感器输出的下游用户。Palantir Edge AI对模型及其依赖项进行容器化,允许组织将必要的库和驱动程序直接与模型打包,而无需依赖与Palantir或系统中第三方模型的协调。
04 轻量级、模块化接口,用于在远程或资源受限环境中执行关键计算过程
Palantir Edge AI可在组织的专用计算硬件或其他低SWaP(尺寸、重量和功耗)规格的设备上运行。在使用点部署可实现源自最高质量传感器、物联网和视频输入的最佳质量人工智能检测。该平台根据资源限制条件决定是否从设备传出信息。在限制较少的情况下,它可以传输所有原始输入和模型生成的丰富元数据。在限制较多的情况下,可将其配置为传输"仅元数据"流(例如,任何检测数据,以及位置经纬度/高程数据),这占用的可用带宽更少。在近期的操作测试中,Palantir Edge AI能够将比特率降低20倍,从而减轻了下行链路网络系统的压力。在微型规格设备上运行模型并校准数据传输,使得自主传感器工作成为可能。
05 简化并自动化复杂数据工程任务的工具
Palantir Edge AI提供了一个配置界面,允许所有用户(包括非技术人员)在实时传感器上配置高度复杂的人工智能流水线。该界面支持多种用例,包括视频稳定、目标检测、地理配准以及运动检测与预测。
06 实时便携式再训练
Palantir Edge AI中的算法可以在实时数据流上更新和部署,几乎无需停机,从而缩短模型再训练的反馈循环。团队可以根据输出质量、速度和带宽等因素对模型进行优化。
07 持续集成/持续交付
从边缘部署模型传回的决策和上下文元数据会流回核心的Palantir人工智能/机器学习基础设施,加速再训练过程。其结果是一个良性循环,实现了模型直至边缘的持续集成/持续交付。
战争的演进与人类的发展紧密相连。战争并非凭空出现;它是生存谋划的自然结果。在古代,战争也非无中生有,而是生存策略的逻辑延伸。随着人类从原始的狩猎采集社会演进到先进复杂的文明,战争的轨迹也随之改变。有时,这条轨迹呈线性发展,其激烈程度和影响仅有小幅增加;而在另一些时期,随着新技术、新战略或两者共同出现,战争形态呈指数级跃迁[2]。由人工智能和量子计算塑造的现代战争,既是过去的延续,也是其发展轨迹的拐点。在史前时期,尼安德特人与早期智人之间的暴力冲突频率较低,地理范围有限,尚未发展成一种制度化的形式。即便在这些早期时代,战争的某些规则已然明晰:使用简单武器、协同合作、制定计划以及造成伤亡。随着人类社会变得更加平等,人们不再以游牧群体形式生活,开始定居在固定地点。因此,战争也发生了改变,变得更加有组织[3]。美索不达米亚、埃及和印度河流域的早期文明过渡到了更具结构性的战争形式,出现了有组织的军队和专门的武器。战争成为维护/巩固政治权威和扩张领土的首选工具[4]。
战争不再是两支常备军之间旨在征服对方的武装冲突。它演变成一幅战略艺术的画卷,因军事学说和战略思想的演进而变得生动鲜明[5]。如今,战争已进入人工智能和量子计算时代,这场过渡之旅可被称为迈向算法化战争的转变。战争从狩猎采集时代的原始形态,到工业时代,再到如今的算法化战争时代的转型,不仅仅是武器或平台使用的过渡[6]。
工业时代的战争强调规模、机械化及国家资源动员。决策是层级式的,并受到个人偏见的影响。卡尔·冯·克劳塞维茨精辟地阐述了这一时代的哲学层面,其“战争论”构成了战争的政治框架及其不可预测性的基础。克劳塞维茨将战争定义为“政治以另一种手段的延续”[7],将战争与治国之术融合为一个统一的概念。他提出了诸如战争迷雾、摩擦和重心等著名理念,以突显军事的复杂性与不可预测性;然而,在工业时代,战斗主要聚焦于消耗。胜负取决于情报质量、后勤限制和通信技术的局限性。信息收集的迟滞、繁琐的分析过程、分析后的决策、命令下达以及僵化的指挥链结构,限制了指挥官将OODA循环(观察、判断、决策、行动)缩短到极限的能力。
克劳塞维茨的战争观
克劳塞维茨的理论经受住了时间的考验。它在很大程度上独立于技术进步,更侧重于人类和心理维度。在战争中,长期和短期的结果在很大程度上仍是不可预测的。即使是最精密的系统也可能犯错,导致难以想象的后果。源于技术故障、沟通不畅、人类局限性和人为错误的不确定性及不可预见的后果影响着军事行动。识别重心为削弱对手实力提供了机会。然而,随着战争从20世纪演进到数字时代,严格的克劳塞维茨视角的局限性变得显而易见。当代作战的快节奏、海量信息以及军事系统日益增长的复杂性,产生了超出传统决策方法局限的需求。克劳塞维茨对战争本质提供了深刻的洞见;尽管如此,他的范式缺乏明确的方法来应对当代战场的高速性和多变性。
约翰·博伊德的OODA循环
在此背景下,约翰·博伊德提出了OODA循环,这是一个改变了军事决策过程理解方式的框架。博伊德的观察、判断、决策、行动模型将冲突较少视为一系列固定步骤的序列,而更多地视为试图预测、干扰和超越对方的对手之间持续不断的互动。重要的不仅仅是火力或数量优势,而是比对手更快、更连贯地处理不断演变的事态的能力。
该模型产生影响的部分原因是它反映了真实战斗情况的不确定性。战争中的决策很少能在信息完全的情况下做出。指挥官观察零散信息,通过先前的经验和训练加以解读,然后在压力下采取行动。例如,在海湾战争期间,联军得益于更快的信息流和更灵活的指挥结构,而伊拉克的应对则常常滞后于变化的战场态势。博伊德的框架很好地捕捉了这种不平衡。它表明,混乱和延迟甚至可以在物理性摧毁变得具有决定性之前就削弱对手[8]。OODA循环提供了与卡尔·冯·克劳塞维茨更具哲学意味的战争论述略有不同的东西。克劳塞维茨关注的是战争的本质、不确定性、政治意图和摩擦。然而,约翰·博伊德似乎更感兴趣于在压力下如何实际做出决策,以及一方如何能破坏对手做出连贯反应的能力。他的框架感觉更具可操作性,或许是因为它源于实际的军事经验,而非仅仅是抽象的理论。博伊德认为,冲突的成功较少取决于做出完美的决策,而更多地取决于比对手处理事件的速度更快地做出可行的决策。这一区别至关重要。在战斗中,等待完全清晰的局势通常意味着反应过迟。一支即使不完美也能快速适应的部队,可能会扰乱仍在试图解读局势的对手。这种思维在现代机动战争中可见一斑,其中节奏和主动性常常胜过僵化的控制。
这个理念也自然契合分散式指挥结构。人们期望下级指挥官能够响应不断变化的情况,而无需持续等待上级批准。例如,在海湾战争中,联军比伊拉克军队享有更快的信息流和更灵活的指挥安排,后者的反应通常更慢且高度集中。尽管如此,博伊德的模型并非没有局限。更快的决策并不自动产生更好的结果,特别是当信息本身被操纵或不完整时。然而,OODA循环经久不衰的吸引力或许在于其现实性。战争很少给予足够的时间来确保确定性,认识到这一点的军队往往以不同的方式组织自身。OODA循环常被认为加速了决策过程,这种声誉在很大程度上是合理的。然而,该框架高度依赖于人类认知,这引入了比军事学说有时所设想的更难标准化的复杂性。在判断阶段,这种局限性变得尤为明显。这是原始信息被解读、筛选并被赋予意义的阶段,而这一过程远非中立。
约翰·博伊德明白,人们处理信息的方式不尽相同。经验、训练、制度文化、个人假设甚至压力水平都会影响对局势的解读。两名军官可能收到相同的情报信息,却仍对所发生之事得出不同的结论。一人可能看到战术机会,而另一人则看到升级风险。这种差异未必是非理性的。它反映了认知本身的主观性。在作战条件下,这一点变得更加显著。人类的注意力是有限的,尤其是在信息饱和的环境中。疲劳、认知偏见和情绪紧张会在最需要清晰判断的时刻恰恰限制了判断力。近期的冲突已显示出指挥官根据不完整的无人机画面采取行动或误读电子干扰的实例。问题不在于缺乏数据,而在于难以实时准确解读。
因此,OODA循环的有效性似乎不仅仅与速度相关。基于扭曲认知做出的快速决策可能造成混乱而非优势。或许,关键在于压力下的认知质量、适应能力、过滤噪音以及在局势再次变化前修正假设的能力[9]。
人工智能和大规模数据分析进入战争领域,已经开始改变军事决策的方式,或许更重要的是,改变由谁或由什么做出决策。决策曾被认为本质上是一种由判断、直觉、训练和压力下的经验所塑造的人类功能。这种假设现在似乎已不那么稳固。在许多作战场景中,机器不再局限于通过后台计算支持指挥官。它们越来越多地协助识别目标、筛选情报流、优先排序威胁,并以参谋人员难以企及的速度推荐应对方案。
这种转变促成了常被描述的“算法化战争”。这个词有时听起来有些夸张,但其背后的变化足够真实。现代军事系统通过卫星、无人机、传感器、雷达网络和通信拦截产生海量数据。人类操作员无法实时处理所有这些信息。然而,人工智能(AI)系统可以在数秒内扫描海量数据集中的模式,标记异常,并在事件仍在发展时进行评估。近期的冲突已部分展示了这一趋势。例如,在俄乌冲突中,自动化数据融合和无人机辅助的目标瞄准缩短了从探测到打击的时间。类似的进展在海上监视中可见,人工智能工具追踪的船舶运动模式,如果是人工分析,会让人力分析师不堪重负。
尽管如此,将人类完全排除在决策循环之外的想法仍然存在争议。机器处理速度可能更快,但仅凭速度并不能保证良好的判断。算法在其训练所用数据的质量和假设内运行。错误识别、带有偏见的数据集或被操纵的输入会迅速扭曲结果。即便如此,人工智能系统正日益压缩OODA循环的每个阶段,常常迫使人类决策者以机器设定的节奏做出反应,而非经过深思熟虑[10]。
在OODA循环的观察阶段,军事系统现在从卫星、无人机、雷达站、通信拦截和遍布不同作战领域的地面传感器中获取海量数据。仅数据量就使得纯粹的人力解读变得困难。在判断阶段,算法系统开始过滤这些信息,寻找模式,标记异常,并试图从常常是零散或矛盾的输入中生成连贯的作战态势图。这个过程看起来很高效,尽管算法生成的清晰度有时会造成一种误导性的确定性。
决策阶段越来越依赖于预测性分析,该分析提出可行的行动方案,并附有估计概率和预测结果。指挥官可能仍保留着正式权力,但他们的选择常常受到机器生成建议的影响,这些建议的传递速度使得在实时情况下难以提出质疑。在某些场景下,特别是导弹防御或自主无人机作战中,即使是几秒钟的延迟也可能改变结果。行动则引入了另一个转变。一旦权力被授予自主或半自主系统,执行过程可能只需最少的人工干预。防空系统在某些条件下已经以这种方式运行,反应速度之快是人类操作员难以合理掌控的。然而,减少人类参与也减少了犹豫、重新解读或克制的机会。因此,OODA循环因自动化而受到压缩,机器加速了每个阶段,而人类越来越多地监督着在实践中他们可能已无法完全控制的过程。
从以人为中心到人工智能介入的决策周期
人工智能赋能决策系统已经开始以前所未有的方式压缩战争中的时间,这在几十年前似乎是不现实的。曾经需要数小时甚至更长时间经过层层分析、讨论和授权的决策,现在可以在数秒甚至毫秒内完成。导弹防御系统已经以此种速度运行,因为仅靠人类反应通常太慢,无法拦截来袭威胁。然而,更广泛的影响比单纯的“更快的战争”更令人不安。
这种加速日益被描述为“超限战”(Hyperwar),这个术语由约翰·R·艾伦和人工智能研究员阿米尔·侯赛因于2019年提出[11]。这个词指的是OODA循环的急剧压缩,观察、判断、决策和行动以机器速度而非人类思考的速度发生。实际上,人工智能系统可以在人类操作员完全解读局势之前,就分析传感器数据流、识别模式、优先排序威胁并触发响应。
然而,问题不仅仅是速度。当事态发展速度快于有意义思考成为可能时,人类认知会感到困难。在此条件下,指挥官可能逐渐从积极的决策者转变为监控自动化流程的监督者,而这些流程他们无法在现实中实时评估。人工智能驱动战争的支持者认为,这减少了犹豫并提高了反应能力。然而,批评者担心,压缩的时间线几乎没有留下判断、克制或重新考虑的余地,尤其是在系统开始自主交互之后。因此,担忧的焦点较少在于机器在抽象意义上变得智能,而更多在于战争日益以一种人类干预开始感觉在结构上滞后的节奏展开。
在决策过程中,人在环路(human-in-the-loop)的依赖演变为人出环路(human-out-of-the-loop)。在“算法化战争”领域,战争的节奏与机器处理速度成比例地加速。在超限战中,传统上赋予人类的决策者角色,正越来越多地被委托给机器。随着人工智能系统变得更智能、更强大,人类的认知局限将阻碍决策循环。因此,人类决策者将面临压力,不得不将更大的权力委托给机器。
算法化战争范式
在算法化战争中,传统上构成军事力量范围的组成部分已从其显赫地位有所退却。这些已被数据、通信和计算能力所取代。集结军队、刺激工业生产和提升火力的能力,虽然是战争中的一个决定因素,但其尊崇地位正面临压力,因为越来越依赖人工智能和机器学习能力以在冲突中取得有利结果。重心从物质资产转向信息优势和决策优势[12]。信息优势并非全新的范式,而是一种演进范式,据一些专家称,这更是一种革命性现象。这种范式促使人们重新审视许多基本概念和论述。指挥与控制结构需要重新配置,以便在人类监督下将人工智能系统整合到决策过程中。源自指挥与控制结构的决策,需要由行为体(人类、机器或两者)执行,以在尽可能短的时间内实现目标。
从克劳塞维茨的洞见到博伊德的OODA循环,再到人工智能赋能决策,在学说、战略和战术上的演进并不代表战争演变中的离散断裂。在战争中,每一次演进都是对现有且持久原则能力的增强。
即使在由人工智能、精确制导武器和实时监视网络塑造的时代,卡尔·冯·克劳塞维茨的思想依然难以被摒弃。他认为战争最终与政治目的相关,这一论点所解释的内容,有时超过了许多以技术为中心的理论所承认的。先进的军事能力可能改变冲突的速度和规模,但它并不能消除不确定性或保证政治上的成功。涉及伊朗、美国和以色列的持续紧张局势和冲突相当尖锐地说明了这一点[13]。军事行动、经济施压、秘密活动和外交胁迫都与更大的政治目标相关联。对于美国和以色列而言,这些目标包括遏制伊朗的地区影响力、削弱其核基础设施,以及至少在某些圈子里,鼓励其内部政治变革。伊朗的优先事项看似更窄,但政治性丝毫不减:政权生存、战略威慑以及维持其在地区力量动态中的相关性。然而,战场或技术上的优势并未顺利转化为政治解决。空袭可能破坏基础设施并削弱军事能力,但它们不会自动产生稳定结果或迫使政治屈服。停火谈判、间接讨价还价、制裁和国际压力的持续存在表明,冲突仍然受到远超单纯军事对抗之外的算计所塑造。
克劳塞维茨曾预见到类似的问题。战术或作战上的成功可以与政治模糊性共存。一个国家可能在军事上占据主导,但仍难以确保其最初寻求的条件。当前的冲突反映了这种紧张关系。主要行为体中没有任何一方似乎已经完全实现了最初为其升级行为辩护的政治目标,这或许解释了为什么冲突持续在对抗、克制和不安的谈判之间摇摆,而非达到任何决定性的终点。
在涉及伊朗、美国和以色列的持续对抗中,约翰·博伊德的OODA循环框架以相当实际的方式显现。各方都在不断观察战场发展、收集情报、解读信号,并根据形势变化调整应对。监视系统、拦截的通信、卫星图像、无人机数据流和网络情报都输入到这个循环中。信息被快速收集、筛选、评估,然后推送给决策者,他们必须在局势再次变化前采取行动[14]。然而,这场冲突也暴露了这一过程的脆弱性。OODA循环假定观察与行动之间存在一定程度的清晰度,但现代冲突很少能提供这种稳定性。情报在送达指挥官之前可能不完整、被操纵、延迟或在政治上被过滤。电子干扰、虚假信息和不对称战术在每一阶段都使解读复杂化。
伊朗的做法在这方面尤其具有破坏性。它并非仅仅依赖传统军事对抗,而是经常使用代理网络、分散行动、经过校准的导弹攻击、网络活动和战略模糊性。这类战术通过使意图更难以解读,从而减缓对手的判断阶段。例如,一次无人机袭击可能同时传递军事信号、政治信息或威慑意图。这种模糊性迫使对手在回应前花费更多时间评估风险。因此,即使是技术优势方也可能发现其决策周期变得紧张。问题不一定在于缺乏能力,而是在于当作战环境被刻意设计成比得出清晰结论更快速产生不确定性时,难以保持连贯的判断。
在许多情况下,他们的判断和反应周期已被打乱。由于伊朗有能力在承受猛烈空袭的情况下进行军事调整和政治重新定位,制空权带来的战术优势未能转化为长期的战略收益。博伊德的OODA循环在伊朗冲突中的相关性得到了重申,表明认知和适应性,而不仅仅是摧毁,才能带来相对的战略优势地位。
算法化战争,尽管听起来不错,似乎是一个尚未在军事术语中被广泛使用的词汇。然而,它已经进入军事词汇,塑造着现代战争的作战方式。在算法化战争中,算法是核心:它们处理海量的、碎片化和非结构化的数据,将其转化为可操作的洞见,并辅助决策。算法甚至可以被定制来自动化决策,做出自主选择。想象一下,一架无人机不是通过飞行员的直觉,而是通过对成千上万张图像训练出的模式识别来识别目标。或者,监视系统在任何人分析师有时间查看之前就标记出“可疑行为”。这很高效,不可否认。然而,对我们中的一些人来说,授权代码行自主承担战争的部分任务,令人不安。
算法化战争加快了任务执行的节奏。高风险的决策,原本需要进行背景研究、分析和审议,需要花费数小时甚至数天的大量时间,现在可以被压缩到数秒。据报道,在伊朗冲突中,美国和以色列使用人工智能辅助系统来识别目标列表,这是最优秀的人脑在给定时间框架内永远无法匹敌的。
Palantir科技公司与美军
美国军方与Palantir科技公司的关系,其发展之广泛已远超该公司早期作为利基分析公司的形象。在过去的十年中,Palantir已日益融入美国国防生态系统,尤其是在涉及情报整合和作战决策支持的领域。其平台,特别是Gotham和新的人工智能平台(AIP),旨在整合来自多种不同来源的信息:卫星图像、无人机数据流、信号情报、后勤数据和人工报告[15]。
对军事指挥官而言,其吸引力似乎相当实际。现代战场以压倒性的速度产生碎片化且常常矛盾的信息。一个监视数据流可能显示部队调动,而被拦截的通信则暗示着不同的情况。像Palantir这样的系统试图将这些输入组织成一个持续更新的作战态势图,指挥官可以与之实时互动。在包括涉及伊朗的紧张局势在内的高压情况下,这种整合可以缩短观察与决策之间的差距。
然而,这也改变了软件在军事结构中的作用。Palantir不再仅仅作为处理孤立数据分析的后台支持工具运行。其平台日益影响着信息如何被优先排序、解读并呈现给决策者[16]。这种区别很重要,因为信息的结构常常影响决策本身。支持者认为,集成系统减少了混乱,提高了作战响应能力。然而,批评者担心对算法过滤日益增长的依赖,指挥官在时间压力下可能无法完全理解或挑战这些过滤。这种担忧较少是关于单一公司获得影响力,更多是关于军事判断如何逐渐适应软件生成的、看似连贯的现实,即使底层数据可能仍包含不确定性。
近年来,美国军方与Palantir科技公司的关系已远超传统的情报支持范畴。其软件平台,包括Gotham、Foundry和人工智能平台(AIP),日益在作战规划和战场管理的中心地带运作。它们协助任务规划、传感器融合、后勤协调,并构建来自多路信息的实时作战态势图。对此类系统的需求反映了当代战争的速度和复杂性。现代战场产生的数据量远超过参谋人员能够轻松实时处理的程度。超音速飞机、远程精确导弹、无人机蜂群、游荡弹药、卫星数据流和信号情报系统都在持续产生每分钟都在变化的输入。在战斗条件下,期望指挥官从几个互不关联的系统吸收碎片化信息并仍能快速做出连贯决策,似乎越来越不切实际。
这正是Palantir作用变得重要的地方。其平台试图将分散的输入融合到单一作战界面,减少观察与响应之间的延迟。指挥官不再需要手动在不同情报源、通信系统和目标显示之间切换。软件在信息到达决策者之前就对其进行组织和优先排序。然而,更深层次的影响可能在其他地方。随着军事组织越来越依赖集成的人工智能驱动系统,软件开始塑造战场现实本身如何被感知。决策可能显得更快、更连贯,但它们也日益通过算法结构被过滤,而指挥官在压力下并非总能完全审视这些结构。因此,问题不仅在于效率,还在于军事判断如何逐渐适应机器筛选出的战争理解。
Palantir科技公司似乎已从支持传统的“杀伤链”模型转向更接近分布式“杀伤网”架构。旧的杀伤链框架遵循相对线性的序列:探测、识别、瞄准、交战。然而,当代战场很少以如此有序的方式运作。信息现在同时流经卫星、无人机、地面传感器、网络、海军平台和空中系统,常常是多个行为体同时互动。Palantir的平台似乎正是为这种更网络化的环境设计的。它们不将军事行动视为孤立的行动链条,而是将多个传感器、情报流和决策节点整合到一个持续连接的作战结构中。一架探测到移动的无人机、一颗捕获图像的卫星和一个拦截通信的信号情报平台,几乎可以实时地全部馈入同一个系统。
这种转变之所以重要,是因为现代战争越来越看重适应性而非僵化的顺序。如果一个传感器或平台失效,另一个可以填补空缺。这种灵活性更像一张网而非一条链。同时,这种互联性也产生了对软件集成和连续数据流的依赖。该架构在某些方面变得更有韧性,但在其他方面可能更容易受到干扰、过载或操纵的破坏。经典的杀伤链遵循线性轨迹,转换依次发生,即一步接一步。传统模型通常描述为:发现威胁、确定其位置、跟踪其移动、瞄准它、交战并评估结果。每个阶段只有在前一阶段成功完成后才能开始。在多个领域同时运作的对抗环境中,杀伤链模型失去了其可行性和有效性。任何一个环节的中断都可能打断整条链。Palantir的系统有助于超越这种线性结构,进入网络化的杀伤网[17]。
从杀伤链到杀伤网
算法化战争正在加速从传统杀伤链到现代杀伤网的过渡。在多域系统同时运行的时代,线性的杀伤链极易在任一环节受到干扰[18]。单个断裂的环节就可能导致整个过程陷入停顿。这正是算法化战争的累积优势显现之处。人工智能系统可以同时从各种来源摄取前所未有的大量数据,识别模式,量化威胁,并推荐相应的应对措施。不再是信息依次序流动,网络中的多个节点可以准备就绪,根据从同一共享态势图中获取的信息采取行动。这个过程变得分布式而非顺序性。实际上,算法就像蜘蛛,将从不同传感器和射手接收到的信息线索编织成一个选项网络。
然而,解决与战争相关的不确定性并无万全之策[19]。从概念上讲,杀伤网似乎是完美的解决方案,但战争天生具有模糊性。算法,无论训练得多么好,都可能误读模式并提供选项,当用带有认知疏忽的方式评估时,这些选项将是代价高昂且不切实际的。尽管利用算法从杀伤链过渡到杀伤网具有重要的战略意义,但它并不能消除战争迷雾和摩擦,也不能免除指挥官的道德责任。
有人可能会说,将决策能力委托给机器,尤其是在战争中,似乎是非人化的,因为这赋予它们基于计算而非道德理解对人类(敌军士兵)做出决策的权力。承载生杀予夺之重的决策需要由良知驱动,具有同理心,并考虑具体情境。机器可以识别模式,有时基于概率推理推荐行动。当以人为中心的特质从决策过程中移除时,战争就变成了非人化的行为,没有任何情感依托,并可能变得更加机械化和情感疏离。杀戮可能开始看起来像一项技术任务,而非一项严肃的人类行为。
然而,将算法化战争纯粹定性为非人化的也是不准确的。算法做出的瞄准决策能够实现精确打击,与过去那些辨别力较差的方法相比,减少了附带损害。预警系统可能有助于在敌对威胁具体化之前缓和升级态势。在全球范围内,强大的军队已采用了有望提供更大控制力的技术。算法系统是这一上升轨迹中的又一个新增项,尽管它们带来的影响和自主性确实感觉不同。
今天的战争可以描述为一种混合模型,它结合了所有三种范式的要素:克劳塞维茨理论、博伊德的OODA循环和算法化决策。
这些范式都无法单独应对当今的战略挑战。卡尔·冯·克劳塞维茨认为,战争仍然是政治通过暴力手段的延续,尽管技术发生了巨大变化,这一观察似乎仍难以被忽视。国家开战并非仅仅因为他们拥有先进武器或自主系统。他们作战是为了确保政治目标、改变战略态势、强制行为或维持政权生存。包括纳戈尔诺-卡拉巴赫冲突、俄乌冲突以及红海和更广泛中东地区持续对抗在内的近期冲突,相当清晰地反映了这一点。军事行动可能在技术上显得复杂精密,但其背后仍与政治意图相联系。
在作战层面,约翰·博伊德的OODA循环为讨论引入了另一层面。现代战场移动迅速且常常不平衡。无人机打击、导弹防御系统、网络行动和电子战压缩了用于解读和响应的时间。指挥官被期望观察变化的条件、解读碎片化信息、做出决策并在对手适应之前采取行动。在实践中,能更连贯地循环此过程的一方往往能获得暂时优势,即使没有压倒性力量。
人工智能使局面进一步复杂化。人工智能系统能够以超越人类认知的速度处理海量传感器数据流、识别模式并生成建议。这大大加速了OODA循环,尤其是在信息饱和的环境中。然而,更深层的转变可能不仅仅是更快的战争。人类的判断越来越多地在机器塑造的时间线内运作。在克劳塞维茨的意义上,政治目标仍然指导着战争,但算法系统现在影响着军事组织以多快的速度向这些目标迈进,有时甚至在深思熟虑完全跟上之前。
一个更可行的办法可能在于一个混合模型,它选择性地汲取每种范式的精华,而非将任何一种视为自身就足够。克劳塞维茨意义上的政治判断仍然重要,因为战争继续围绕着战略目标和人类后果。博伊德对节奏、适应性和决策优势的强调在快速变化的作战环境中仍然具有现实意义。与此同时,人工智能驱动的系统在处理数据、识别模式和减少复杂战场空间中的延迟方面具有明显优势。
完全依赖一个框架似乎越来越有局限性。单凭人类判断难以应对现代战争的数据量和速度,而完全自动化的决策则会带来误算和过度依赖算法解读的风险。因此,一个混合模型似乎更实际,机器在速度和数据整合方面提供协助,而人类保留解读、克制和政治意图的责任。这种平衡可能永远不会长期稳定,但这种不稳定本身或许正反映了当代冲突的本质。克劳塞维茨理论将塑造战争的政治目的和战略范围[20]。战略和战术计划的适应性与节奏将与博伊德的理论相一致。算法驱动的系统将推动跨领域的感知、分析和协调工作。这三种范式的结合,将战争同时定义为政治的、认知的和计算的。
战略决策将继续主要以人为中心,植根于个体条件、判断、训练和情境理解。另一方面,人工智能系统将被委以作战和战术决策以及执行的任务,以引发快速、相称的响应。挑战在于如何有效地融合这三种范式,从而实现由技术优势、战术效率和作战能力驱动的战略目标。然而,存在着需要新视角和战略洞见的学说和伦理挑战。技术正以前所未有的速度演进,脱离了本应指导其发展的伦理框架——国际法的制定和实施难以保持相关性,并面临着被普遍接受的挑战。
更深层的挑战可能不在于机器自主性本身,而在于人类认知如何逐渐适应与之共存和并肩运作。这种调整不太可能平稳进行。军事组织可以相对快速地引入先进的自主系统;而改变人类判断和行为习惯则需要更长的时间。人们习惯于质疑、解读和干预。完全信任自动化系统,尤其是在高风险环境中,并非自然而然的,即使这些系统在速度和数据处理方面持续超越人类。
同时,过度依赖会产生不同的问题。心理学家常将这种倾向描述为“自动化自满”,即操作员因系统过去可靠运行而对其输出变得过度自信[21]。商业航空业已经展示了这个问题的某些方面。驾驶高度自动化飞机的飞行员有时会失去情境意识,正是因为常规任务被软件处理得如此高效,直到一个异常事件突然需要快速的人工干预。
在由人工智能支持的瞄准、导弹防御或战场管理软件驱动的军事系统中,存在类似的风险。当机器生成的评估与预期一致时,操作员可能停止仔细质疑它们。模糊的数据可能被忽视,矛盾的信号被忽略,或有缺陷的输出未经充分审查就被接受。当系统遇到其训练假设之外的情况时,困难就会出现。届时期望人类干预迅速恢复控制,但到了那个阶段,操作员可能在认知上已经脱离了决策过程。
因此,高度自动化系统未必减少对人类认知的需求。它们改变了其性质。人类不再持续控制操作,而是越来越多地进行监督、解读例外情况,并在故障条件下进行干预。这在理论上听起来是可行的。但在实践中,在压力下重新掌控一个快速运行的自动化流程,可能需要一种与传统军事机构所训练的不同类型的判断。
结论
当代战争的特点似乎越来越受到古老的战略思想与快速发展的技术之间不安的相互作用所塑造。卡尔·冯·克劳塞维茨的思想仍然具有现实意义,因为尽管存在无人机、人工智能系统和自主武器,战争仍然围绕着政治目标展开。国家使用武力是为了确保威慑、维护影响力、维持政权生存或改变战略平衡。工具已发生巨大变化。根本动机或许比预期的变化要小。在作战层面,约翰·博伊德的OODA循环获得了新的重要性,恰恰因为现代冲突以如此不均衡的速度展开。军事组织现在竞相观察、解读和反应,力求比对手的适应速度更快。人工智能通过以超越人类认知的规模分析数据,加剧了这一过程。卫星数据流、无人机图像、信号情报、网络输入和战场通信现在几乎可以持续处理,压缩了探测与行动之间的时间。从这个意义上说,技术并未取代经典的战略思想。它改变了这些思想运作的节奏。
然而,算法化战争的兴起带来了军事机构似乎尚未完全解决的紧张关系。随着作战系统从相对线性的杀伤链转向网络化的杀伤网,软件日益影响着威胁如何被识别、优先排序和接战。人类操作员仍然存在,但其角色正逐渐从直接控制转变为特殊情况下的监督和干预。与Palantir科技公司相关的系统相当清晰地说明了这种转变。集成的人工智能平台可以提高协调、减少信息过载并加速战场决策。然而,对算法系统的依赖也造成了不透明性。指挥官可能信任那些他们在实际操作压力下无法有效质询的输出。对自动化的过度自信,加上被压缩的决策周期,可能缩小反思和克制的机会。
那么,更深层的问题可能不在于军队能否建造更先进的机器。他们几乎肯定能。更困难的问题在于,当战争日益以机器速度展开时,政治判断、伦理责任和人类问责能否保持完整。未来的军事效能可能较少取决于单纯的技术拥有,而更多地取决于各国如何审慎地在自动化与有纪律的人类控制之间取得平衡。
注释
小型无人航空系统(sUAS)构成的威胁,横跨军事、国土安全和执法职责。曾被视为爱好者工具的小型无人航空系统,现已转变为能够扰乱行动、实施监视和投送有害载荷的威胁倍增器。小型无人航空系统的扩散,为以往只有国家军队才拥有的个人和小团体提供了精确侦察和打击能力。它们价格低廉、适应性强且具有致命性。
美军联合跨部门特遣部队401(JIATF 401)的任务是协调美国防部的反无人机工作,以大规模快速交付联合作战能力,保护美国和盟军部队,并协助联邦机构和部门保卫关键基础设施及国土。特遣部队的一项效能衡量标准,是迅速将先进的反小型无人航空系统(C-sUAS)能力交到作战人员手中。实现这一成果需要的不仅仅是创新;它要求一种严谨的测试、评估和持续改进方法,将前景广阔的技术转化为大规模、与作战相关的解决方案。在这个充满活力的环境中,联合跨部门特遣部队401将果断行动,加速交付反小型无人航空系统技术,以保护人员、设施和资产。通过优先考虑快速创新和可扩展的解决方案,我们的联合部队和跨部门合作伙伴能够跟上威胁的步伐。
为确保作战人员以及各州、地方、领地和部落的执法部门配备最有效的系统,联合跨部门特遣部队401必须建立标准化的评估规程,以便为明智的采购决策提供客观比较。一个统一的框架对于促进互操作性、加速列装以及确保跨所有领域的结果具有可比性至关重要。
本《反无人机系统表征通用标准》(C4)为评估和鉴定奠定了基础。所附指南并非要取代各军种和跨部门机构进行的其他既有的开发、作战测试或安全认证。相反,在此提供的是加速评估商用反小型无人航空系统技术的权威方法。通过提供通用标准,我们确保在评估新兴反小型无人航空系统技术时的一致性、可扩展性和速度,同时利用先进的建模与仿真工具为分析提供信息。
随着反小型无人航空系统技术的发展,本框架将进行调整以适应威胁的复杂性,同时保持一致的方法论,以确保整个联合部队和跨部门合作伙伴间的共同性和可操作性。
目录
| 内容 |
|---|
| 1. 引言 |
| 2. 组织角色与职责 |
| 3. 威胁特征描述 |
| 4. 反小型无人航空系统能力特征描述标准 |
| 4.1 核心能力领域(探测、跟踪、识别、打击) |
| 4.2 关键性能基准 |
| 4.2.1 探测关键性能参数示例 |
| 4.2.2 跟踪关键性能参数示例 |
| 4.2.3 识别与特征描述关键性能参数示例 |
| 4.2.4 目标质量关键性能参数示例 |
| 4.2.5 打击关键性能参数示例 |
| 4.2.6 自动化关键性能参数示例 |
| 4.2.7 指挥控制关键性能参数示例 |
| 4.2.8 生存性关键性能参数示例 |
| 4.2.9 辅助系统特性关键性能参数示例 |
| 4.2.10 成本关键性能参数示例 |
| 4.3 操作员与系统可用性 |
| 4.4 任务影响与风险评估 |
| 4.4.1 公众与蓝军安全评估 |
| 4.4.2 系统对抗对抗措施的弹性 |
| 5. 评估方法论与设计 |
| 5.1 评估原则 |
| 5.2 想定设计 |
| 5.2.1 测试矩阵示例 |
| 5.3 评估环境 |
| 5.4 用于评估的任务工程与建模仿真 |
| ii |
| 6. 数据收集与分析 |
| 7. 报告与数据管理 |
| 附录A - 缩略语与缩写 |
| 附录B - 政府参考文件 |
| iii |
1. 引言
尽管国防部多年来进行了大量专项测试和重大投资,但反小型无人航空系统(C-sUAS)领域面临一个显著的悖论:我们数据丰富但信息匮乏。一个庞大且不断增长的测试数据存储库,代表着无数次评估产生的海量工作成果,但在很大程度上仍无法用于企业级分析。我们缺乏一个整体流程来管理我们的测试数据以改进决策。由于缺乏通用标准和评估规范,加上数据存在于来源未知、质量不一的孤立孤岛中,使得聚合、比较或利用数据进行战略洞察变得几乎不可能。
标准提供了必要的通用词汇和模式,以转变我们为反小型无人航空系统技术快速评估与采办提供信息的方法。此方法确立了原则,即每一次测试活动、演示、作战评估或技术评估都是一次不可浪费的数据收集机会。通过要求所有评估捕获一系列核心数据点,联合跨部门特遣部队401将能够系统地聚合和综合信息,从国防部所有评估活动中创建一个统一、连贯且可靠的证据体系。
采用这些通用标准是未来反小型无人航空系统发展的关键使能因素。高质量数据是先进任务工程工具和建模与仿真(M&S)环境的基本要素。它将允许进行更严格的系统比较、对能力差距进行稳健分析,以及对那些成本过高或过于复杂而无法仅通过实况测试完成的任务场景进行高保真度的作战性能预测。最终,通过创建一个连贯可靠的证据体系,此方法将为决策提供直接信息并改进决策,从而加速将最有效、最可靠、最集成的反小型无人航空系统技术交付给作战人员和跨部门合作伙伴。
2. 组织角色与职责
联合跨部门特遣部队401:提供并维护反无人机系统特征描述通用标准(C4),并发布关于小型无人航空系统威胁的适用指南。 主要职责:根据需要协调测试与评估资源以支持反小型无人航空系统评估。与相应的资源经理协调,整合和组织从活动中产生的所有测试与评估数据,并确保其可供所有利益相关方使用。
反小型无人航空系统评估员:分析评估反小型无人航空系统性能、可靠性、安全性和生存性的实体。 主要职责:根据定义的效能/性能度量(MOE/MOP)确定评估目标,观察评估执行情况,裁定事件,生成最终报告,包括“能力与限制报告”和“安全发布报告”。
靶场作业:负责执行评估所需的所有后勤、仪器和设施支持。
主要职责:管理评估场地设置、靶场调度(空域/地表)、频率授权、数据收集、作战安全、爆炸物处理支持,以及所有设备和物资的协调。
分析团队:处理所有原始测试与评估数据,将其转化为可供分析使用的格式的中心枢纽。 主要职责:整理和分析数据,识别并报告系统性能问题,并向相应的评估员和其他利益相关方提供快速查看摘要。
威胁分析与规划团队:负责为所有测试定义威胁背景的跨军种职能部门。 主要职责:建立威胁特征,制定威胁战术、技术和规程(TTPs),并与测试规划人员协作,确保在测试过程中一致且适当地使用具有威胁代表性的配置。
建模与仿真(M&S)分析师:负责创建、验证和执行反小型无人航空系统、威胁及作战环境的数字模型,以支持和扩展实况测试活动与决策。 主要职责:开发和维护反小型无人航空系统与威胁的高保真模型;根据实况测试数据对仿真进行验证、确认和认可(VV&A);设计和运行虚拟测试想定,包括超出实况测试范围的想定(例如,大规模集群);向任务工程和分析团队提供建模与仿真数据。
任务工程分析师:负责分析反小型无人航空系统杀伤链的端到端性能,以评估系统的作战效能及其对任务成功的总体影响。 主要职责:进行交战时间线分析(ETA)以识别杀伤链瓶颈;使用实况和模拟数据进行权衡空间分析;将系统级性能度量(MOPs)与任务级效能度量(MOEs)关联;对照定义的敌方行动方案评估系统性能;识别能力差距,为未来需求提供信息。
3. 威胁特征描述
敌方小型无人航空系统通过情报、监视和侦察(ISR)行动以及直接动能攻击对美国部队构成双重威胁。作为回应,任何反小型无人航空系统都必须是可扩展、模块化且易于升级的。在此背景下,“打击”被定义为任何可摧毁敌方无人航空系统并阻止其完成预定任务的行动,无论是动能还是非动能。
随着商业市场生产出更快、更小的平台,敌方的小型无人航空系统变得越来越难以探测、分类和打击。为了跟上这种快速演变的威胁,反小型无人航空系统能力必须具有适应性并且本质上是联合的。未来的反小型无人航空系统作战将成为更大规模、多领域努力的一部分,需要能够快速适应任何作战环境的集成能力。这将通过一个开放的、模块化的、利用系统之系统方法的架构来实现。
4. 反小型无人航空系统能力特征描述标准
4.1 核心能力领域(探测、跟踪、识别、打击)
本节整合了评估反小型无人航空系统针对第1-2组无人航空系统威胁[1]端到端性能的最关键效能度量(MOEs)和性能度量(MOPs)的建议。这些通用的效能度量和性能度量是基准。本文档中没有任何内容禁止反小型无人航空系统评估员筛选附加标准。评估员必须评估哪些标准(或标准的哪些部分)实际上与其评估工作相关。统一的时间基准对于测量这些效能度量和性能度量至关重要。
[1] 评估员应参考国防部2022年11月向国会提交的《无人航空系统分类审查报告》。
4.1.1 标准1 - 探测与跟踪:系统通过所有模式发现并保持对小型无人航空系统威胁感知的能力。 效能度量1.1:无人航空系统探测
性能度量1.1.1:探测概率:系统正确探测到敌方无人航空系统的比例。
性能度量1.1.2:探测距离(地面距离):初始探测发生时距离的分布。
性能度量1.1.3:探测距离(斜距):初始探测发生时距离和高度的分布。
性能度量1.1.4:虚警率:单位时间内虚假小型无人航空系统探测的次数。
效能度量1.2:无人航空系统跟踪
性能度量1.2.1:跟踪概率:成功跟踪的被探测小型无人航空系统的比例。
性能度量1.2.2:跟踪连续性:稳定跟踪一个小型无人航空系统的时间百分比。
性能度量1.2.3:跟踪精度:与地面实况相比,跟踪的三维位置误差。
4.1.2 标准2 - 分类与识别:系统确定被探测威胁性质的能力。
效能度量2.1:目标分类与识别
性能度量2.1.1:正确分类概率:系统正确分类小型无人航空系统的比例。
性能度量2.1.2:正确识别概率:按类型/型号正确识别小型无人航空系统的比例。
性能度量2.1.3:识别距离与时间:实现正确识别时的距离和时间分布。
性能度量2.1.4:误识别率:被错误识别的小型无人航空系统的比例。
标准3 - 威胁打击与拒止:系统中和敌方无人航空系统并阻止其完成任务的能力。
效能度量3.1:威胁交战与打击
性能度量3.1.1:交战概率:被识别为敌意的小型无人航空系统中被系统交战的比例。
性能度量3.1.2:杀伤/打击概率(Pk):被成功打击或使其任务失败的交战小型无人航空系统的比例。
性能度量3.1.3:打击距离:成功摧毁小型无人航空系统时的距离分布。
性能度量3.1.4:打击交战时间:从交战命令到成功打击的时间度量。
标准4 - 系统互操作性与可靠性:系统在其预期环境中并与其他系统协同运行时有效运行的能力。
效能度量4.1:电磁兼容性
性能度量4.1.1:对同址系统的影响:描述系统的频率、功率和不同模式,以及这些因素可能如何影响附近系统。
性能度量4.1.2:对弹药、人员和燃料的影响:确定对弹药的电磁辐射危害、对人员的电磁辐射危害和对燃料的电磁辐射危害。
效能度量4.2:系统可靠性与可维护性
性能度量4.2.1:系统故障间平均时间:导致任务中止的关键系统故障之间的平均运行时间。
性能度量4.2.2:平均修复时间:诊断和修复系统故障所需的平均时间,不包括行政或后勤延迟。
标准5 - 作战可行性:系统在任务环境中由经过培训的人员安全有效操作的能力。
效能度量5.1:网络安全
性能度量5.1.1:风险管理框架(RMF)合规性:系统符合风险管理框架,并已获得运行授权和连接授权。
效能度量5.2:环境生存性
性能度量5.2.1:对抗环境运行:系统不得因威胁电子战(EW)而性能下降。
效能度量5.3:系统安全性
性能度量5.3.1:危险预防:系统设计应根据既定的军用标准,消除或控制对人员的潜在健康和安全危害,包括肌肉骨骼、噪音、辐射和化学风险。
性能度量5.3.2:附带损害缓解:系统应能成功与指挥控制系统交换限制射击扇区,以最小化附带损害并防止误伤。
4.2 关键性能基准
本节概述了定义许多反小型无人航空系统基本作战能力的关键性能参数(KPPs)和关键系统属性(KSAs)。关键性能参数代表一个系统必须实现的最关键属性才能被认为具有军事效能;未能满足一个关键性能参数表明该系统无法履行其预定任务。对于列出的每个关键性能参数,性能由两个不同的级别定义:阈值和目标。阈值代表系统有效所需的最低可接受性能,而目标代表期望的能力或作战实用性的显著提升。
为确保客观评估,评估员必须在测试执行前正式定义并记录每个关键性能参数的阈值和目标的具体数值。这些预先设定的基准不仅仅用于测试后分析;它们必须明确地集成到数据收集计划中,以确保测试设计能够捕获做出明确判断所需的精确数据。在测试与评估期间,评估员将通过执行结构化的测试想定来收集这些数据,最终评估将明确说明系统对于每个关键性能参数是达到了“阈值”、未达到阈值,还是达到了“目标”。
4.2.1 探测关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 1.1 | 距离 | 千米 | 系统必须能在距离所需防区的最小距离上探测到威胁。 |
| 关键性能参数 1.2 | 精度 | % | 在最小探测距离上探测到威胁的概率。 |
| 关键性能参数 1.3 | 视场 | 度 | 探测能力显著大于任务要求并能提供充分覆盖的能力。 |
| 关键性能参数 1.4 | 最低高度 | 米 | 在最小探测距离上能够探测到目标的最低离地高度(以米计)。 |
| 关键性能参数 1.5 | 最高高度 | 米 | 在最小探测距离上能够探测到目标的最高离地高度(以米计)。 |
| 关键性能参数 1.6 | 数量 | # | 可在最小探测距离上同时探测到的、具有指定雷达截面积(RCS)的目标最小数量。 |
| 关键系统属性 1.7 | 自动化 | 是/否 | 系统自动将探测识别为包含速度和移动的航迹,并在指挥控制系统中可视化显示。 |
| 关键性能参数 1.8 | 分辨率 | 米 | 传感器能够分辨不同标准目标尺寸的距离。 |
4.2.2 跟踪关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 2.1 | 距离 | 千米 | 能够从指定边界、在所需防区距离上连续跟踪/保持对威胁感知的最小距离。 |
| 关键性能参数 2.2 | 精度 | +/-% | 在距离上被跟踪目标的真实位置和速度与传感器报告的位置和速度之间的百分比偏差。 |
| 关键性能参数 2.3 | 数量 | # | 可在跟踪距离区域内同时跟踪的、具有指定雷达截面积的目标最小数量。 |
| 关键性能参数 2.4 | 自动化 | 是/否 | 系统是否自动保持对目标机动的感知? |
| 关键系统属性 2.5 | 更新/重访率 | 次/秒 | 系统更新/刷新所有航迹所需的时间量。 |
4.2.3 识别与特征描述关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 3a.1 | 距离 | 千米 | 能够确定性地判定目标为小型无人航空系统的最小距离。 |
| 关键性能参数 3a.2 | 精度 | % | 在最小分类距离上对威胁进行分类的概率。 |
| 关键系统属性 3a.3 | 自动化 | 是/否 | 系统是否执行自动传感器融合以将目标分类为小型无人航空系统? |
| 关键性能参数 3b.1 | 距离 | 千米 | 系统能够识别小型无人航空系统类型、品牌、型号或其他识别特征的最小距离。 |
| 关键系统属性 3b.2 | 自动化 | 是/否 | 系统是否执行自动传感器融合以识别小型无人航空系统的具体特征? |
4.2.4 目标质量关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 4.1 | 距离 | 千米 | 传感器能够获得关于威胁的武器质量数据的最小距离。 |
| 关键性能参数 4.2 | 精度 | % | 在最小目标距离上获得武器质量数据的概率。 |
| 关键系统属性 4.3 | 数量 | # | 被分类和识别为威胁小型无人航空系统、并拥有武器质量信息的同步目标数量。 |
| 关键系统属性 4.5 | 自动化 | 是/否 | 系统是否在没有操作员输入的情况下自动提供武器质量信息? |
4.2.5 打击关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 5.1 | 距离 | 千米 | 武器打击小型无人航空系统威胁的最小距离。 |
| 关键性能参数 5.2 | 数量(同时) | # | 系统能以指定杀伤概率百分比同时打击的无人机数量。示例:“同时打击定义为单个效应器在X秒内打击多个(#)无人航空系统目标。” |
| 关键性能参数 5.2a | 数量 | # | 攻击可同时夺取控制的无人机数量。 |
| 关键性能参数 5.2b | 数量 | # | 窄带射频系统可同时攻击的无人机数量。 |
| 关键性能参数 5.2c | 数量 | # | 激光在单位时间内可打击的无人机数量。 |
| 关键性能参数 5.2d | 数量 | # | 高功率微波武器可同时打击的无人机数量。 |
| 关键性能参数 5.2e | 数量 | # | 动能系统可同时打击的无人机数量。 |
| 关键性能参数 5.3 | 数量(随时间) | #/小时 | 系统在一定时间内必须打击的、达到指定杀伤概率百分比的无人机数量。 |
| 关键性能参数 5.4 | 效能 | % | 在所需最小距离内打击所有无人机的百分比(杀伤概率)。必须定义“软”杀伤和“硬”杀伤的总数。评估必须在评估前定义“软”杀伤和“硬”杀伤。 |
| 关键性能参数 5.4a | 效能 | % | 攻击可同时夺取控制(例如,电子接管)的无人机的杀伤概率。 |
| 关键性能参数 5.4b | 效能 | % | 窄带射频系统可同时攻击的无人机的杀伤概率。 |
| 关键性能参数 5.4c | 效能 | % | 激光在单位时间内可打击的无人机的杀伤概率。 |
| 关键性能参数 5.4d | 效能 | % | 定向能武器可同时打击的无人机的杀伤概率。 |
| 关键性能参数 5.4e | 效能 | % | 动能系统可同时打击的无人机的杀伤概率。 |
| 关键性能参数 5.5 | 发射器容量 | 数量 | 弹药数量。此外,评估员应注明弹匣、吊舱和/或导弹的容量。 |
| 关键性能参数 5.5 | 循环射速 | 发/分钟 | 射速。注:根据系统不同,评估员可以考虑其他适用于该技术的度量(例如,交战间隔时间)。 |
| 关键性能参数 5.6 | 每个拦截器的交战次数 | 数量 | 拦截器同时处理一次或多次交战的能力。评估员应注明效应器是否拥有多个拦截器。 |
| 关键系统属性 5.7 | 附带效应/损害 | 是/否 | 系统是否在可接受的附带效应/损害参数范围内运作以实现打击目标?可选地,如果可以客观衡量,评估员可按百分比对性能下降或损害进行分类。 |
| 关键性能参数 5.8 | 每次交战成本 | $ | 总成本 / 成功交战总次数。 |
4.2.6 自动化关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 6.1 | 工作负荷 | # 人 | 操作该系统所需的人员数量。 |
| 关键系统属性 6.2 | 决策辅助 | 规范。 | 识别推荐。 |
| 关键系统属性 6.2a | 决策辅助 | 是/否 | 武器配对。 |
| 关键系统属性 6.2b | 决策辅助 | 是/否 | 交战区域(最早与最晚)。 |
| 关键系统属性 6.2c | 决策辅助 | 是/否 | 拦截/命中时间。 |
| 关键系统属性 6.2d | 决策辅助 | 是/否 | 交战成功率。 |
| 关键系统属性 6.2e | 决策辅助 | 是/否 | 附带效应。 |
| 关键系统属性 6.2f | 决策辅助 | 是/否 | 传感器融合。 |
| 关键系统属性 6.2g | 决策辅助 | 是/否 | 声音告警。 |
| 关键性能参数 6.3 | 工作负荷 | # 人 | 设置该系统所需的人员数量。 |
4.2.7 指挥控制关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 7.1 | 架构 | 规范。 | 开放/封闭/专有软件及集成选项。 |
| 关键性能参数 7.2a | 互操作性 | 是/否 | 传感器集成。 |
| 关键性能参数 7.2b | 互操作性 | 规范。 | 数据集成。 |
| 关键性能参数 7.2c | 互操作性 | 规范。 | 接口开发。 |
| 关键性能参数 7.3 | 通用作战图 | # | 操作员必须使用多少个显示器和人机界面单元来监视并完成一次交战。 |
| 关键系统属性 7.4 | 分类 | 是/否 | 能够接收多级安全数据,总体保密级别最高可达XXX(提供保密级别)。 |
| 关键系统属性 7.5 | 网络化 | 是/否 | 能够通过网络接口连接系统。 |
4.2.8 生存性关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 8.1 | 防护等级 | 是/否 | 最低防护等级认证/评级为XXX |
| 关键系统属性 8.2 | 弹性 | 是/否 | 在对抗环境中运行的能力 |
| 关键系统属性 8.3 | 漏洞 | 是/否 | 存在网络安全风险 |
| 关键系统属性 8.3a | 漏洞 | 是/否 | 部件制造商或原产国 |
| 关键系统属性 8.3b | 漏洞 | 是/否 | 不安全或配置错误的网络连接 |
| 关键系统属性 8.3c | 漏洞 | 是/否 | 数据处理或传输/人为有意或意外交互 |
| 关键性能参数 8.4 | 可靠性 | 时间 | 系统故障间隔时间 |
| 关键性能参数 8.5 | 系统规范 | 规范。 | 网络(逻辑/物理) |
| 关键性能参数 8.6 | 系统规范 | 是/否 | 腐蚀 |
| 关键性能参数 8.7 | 系统规范 | 规范。 | 中央处理器 |
| 关键性能参数 8.8 | 系统规范 | 规范。 | 硬件 |
| 关键性能参数 8.9 | 系统规范 | 版本 | 软件 |
| 关键性能参数 8.10 | 系统规范 | 列表 | 外部组件 |
| 关键性能参数 8.11 | 系统规范 | 列表 | 环境 |
4.2.9 辅助系统特性关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 9.1 | 电池续航 | 小时 | 电池续航时间 |
| 关键性能参数 9.2 | 重量 | 磅 | 系统重量 |
| 关键性能参数 9.3 | 人工成本 | $ | 人员成本 |
| 关键性能参数 9.4 | 设置 | 时间 | 系统布设时间 |
4.2.10 成本关键性能参数示例
| 关键性能参数 | 度量 | 单位 | 描述 |
|---|---|---|---|
| 关键性能参数 10.1 | 系统成本 | $ | 系统采购和初始安装成本 |
| 关键性能参数 10.2 | 部件成本 | $ | 单个部件系统及安装成本 |
| 关键性能参数 10.3 | 维护成本 | $ | 生命周期成本 |
| 关键性能参数 10.4 | 人工成本 | $ | 人员成本 |
4.3 操作员与系统可用性
如果操作员无法在压力下有效使用,反小型无人航空系统的能力就毫无意义。操作员和系统可用性评估评估关键的社会技术系统方面,认识到系统操作员是杀伤链和整体系统效能的组成部分。在高压力、多目标环境中,操作员会被来自不同传感器的数据淹没;设计不良的系统可能导致信息过载、认知负荷高以及决策缓慢且易出错。因此,任何评估都必须关注用户界面(UI)和用户体验(UX)的清晰度和直观性,审视系统如何有效地将复杂数据融合成一个清晰、可操作的通用作战图。目标是确保系统通过减少认知负荷和实现快速、自信的决策来增强操作员的能力。评估员将使用一种或多种被认可的人为因素评估方法,视其评估需要而定:
4.4 任务影响与风险评估
任务影响和风险评估提供了一个整体评估,超越技术性能,以回答最终问题:这个反小型无人航空系统是否对整体任务产生净正面效应?任务影响分析评估系统对保护被防御资产和支持友军作战的直接贡献,同时也考虑任何负面影响,例如其后勤足迹、电力需求或对友军系统的潜在干扰。相反,风险评估量化了行动与不行动的后果。它权衡威胁成功完成其任务的风险与反小型无人航空系统本身产生的风险,包括动能破片场的潜在附带损害或非动能系统的电磁效应。这种全面评估迫使评估员做出平衡的判断,确保反小型无人航空系统不仅有效,而且在其预期作战环境中具有作战适用性且安全。
4.4.1 公众与蓝军安全评估
全面的安全评估是所有反小型无人航空系统测试与评估的先决条件,确保对公众和友军部队的保护。此评估必须严格分析所有潜在危险,从可预测的动能拦截破片场和非动能系统的深远电磁效应,到被摧毁无人航空系统不受控制的坠落。评估最终建立清晰的安全边界,和旨在减轻所有已识别风险的实时监控程序,从而确保能够在不损害人员或公共安全的情况下实现测试目标。
4.4.2 系统对抗对抗措施的弹性
系统对抗对抗措施的弹性测试是反无人机系统评估的一个关键和高级阶段,其重点从“系统能做什么”转移到“能对系统做什么”。其目的是严格评估反无人机系统在被对手在对抗性作战环境中主动瞄准时,保持其核心功能(探测、跟踪、识别、打击)的能力。这种测试形式是理解系统真实生存性和任务保证的基础,因为它假设敌方部队不会是被动目标,而是会使用自己的战术来破坏或摧毁友军防御能力。
5. 评估方法论与设计
反小型无人航空系统的最终衡量标准不仅仅是其打击威胁的能力,而且是其及时打击以保护被防御资产的能力。交战时间线分析是一个关键的评估框架,旨在将反小型无人航空系统杀伤链分解为一系列离散的、可测量的时间门。通过量化从初始探测到最终摧毁每个阶段的时间,评估员可以超越简单的通过/失败评估,从而更全面地了解系统的速度、效率和作战可行性。
该框架旨在应用于一系列定义的威胁场景,最显著的是敌方的“最可能行动方案”(MLCOA)和“最危险行动方案”(MDCOA)。这确保了系统不仅在预期条件下接受评估,而且在对其性能和被防御资产安全构成最大挑战的场景下受到压力测试。
在进行任何时间线分析之前,必须明确定义将作为评估标准的威胁场景。这些场景决定了测量时间线的条件。
| 场景要素 | 最可能行动方案(MLCOA)示例 | 最危险行动方案(MDCOA)示例 |
|---|---|---|
| 威胁特征 | 单个、市售的第1或2组小型无人航空系统(例如,四旋翼)。 | 多个第1/2组无人航空系统的协调集群,可能混合高速第3组固定翼小型无人航空系统。 |
| 飞行特征 | 可预测的、相对较慢的飞行路径(例如,20-30英里/小时),在中等高度(例如,200-400英尺离地高度)。 | 高速、低空进入特征(地形遮蔽),沿直接攻击航向。可能包括跃升机动或急转。 |
| 任务目标 | 情报、监视和侦察,在被知悉的周界外游弋。 | 旨在压倒防御并以动能方式攻击特定高价值资产的饱和攻击。 |
| 电子特征 | 标准、未修改的射频指挥与控制链路。 | 射频静默操作(GPS航点导航),可能结合针对反小型无人航空系统传感器的主动电子攻击(干扰)。 |
基线性能(MLCOA):时间线分析首先针对最可能行动方案场景运行。这建立了系统在预期的、低压力条件下的基线性能。
压力下性能(MDCOA):然后针对最危险行动方案场景进行分析。这才是对系统真实弹性的测试。
预期结果:评估员可能会看到所有时间增量的增加。探测时间可能因干扰而增加。决策时间可能显著增加,因为操作员被多个航迹饱和。动能系统的效应时间可能增加,因为它们必须依次交战多个目标。
比较分析:该框架为比较不同的反小型无人航空系统提供了标准化的、定量的基础。分析可以说,系统A对付单个目标的总交战时间更快,但其决策-行动延迟在集群攻击期间恶化了300%,而系统B的性能保持稳定,使其更能抵御饱和攻击,而不是简单地说:系统A有8次杀伤,系统B有7次。
5.1 评估原则
为确保反小型无人航空系统的测试与评估严谨、可信并能产生可操作的见解,所有评估员应遵守以下核心原则。这些原则旨在超越简单的性能指标,转向对系统真实作战效用和任务效能的整体评估。
以任务为中心的评估:反小型无人航空系统的最终衡量标准不是其技术规格,而是其成功保护被防御资产的能力。所有测试场景、数据收集和分析必须明确与清晰的作战任务相关联。核心问题应始终是:系统是否能在现实条件下实现任务成功?此原则要求评估员在完整杀伤链的背景下并根据定义的威胁时间线来评估性能,而不是孤立地评估组件。
针对可信且多样化的威胁进行测试:一个系统的好坏取决于其所能打击的威胁。评估必须针对一系列能准确代表敌方的“最可能”和“最危险”行动方案的威胁进行。这包括多样化的小型无人航空系统平台(第1-3组,固定翼、多旋翼)、不同的任务特征(情报监视侦察、动能攻击)以及先进的战术,如集群、低空进入和射频静默操作。针对单一的、简单的威胁特征进行测试将产生误导性和过于乐观的结果。
系统之系统方法:现代反小型无人航空系统很少是单一的解决方案。评估必须将反小型无人航空系统视为一个集成的系统之系统,不仅评估单个传感器和效应器的性能,还要评估数据融合的质量、指挥控制工作流的效率以及组件间的互操作性。如果技术上优越的传感器的数据无法被架构的其余部分有效利用,那么它就价值不大。
在对抗环境中量化性能:必须假定反小型无人航空系统在对手积极试图破坏它的环境中运行。因此,评估必须包括专门的“红队”活动,以测试系统对抗对抗措施的弹性。这包括使系统遭受合理的电子攻击(干扰/欺骗)和传感器饱和战术,以衡量其在胁迫下的性能下降并识别关键漏洞。
操作员是系统的一部分:除了全自动系统外,人类操作员是反小型无人航空系统的关键组成部分。评估应评估“人在回路中”(HITL)的性能,衡量操作员的工作负荷、态势感知、决策准确性以及对自动化的信任度。界面混乱或导致高认知负荷的系统,无论其技术潜力如何,在压力下都会失败。
遵循数据驱动决策的通用标准:为确保评估结果具有可比性、可聚合性,并能为企业级决策提供信息,所有数据收集和报告必须遵循一个共同的、标准化的格式。此原则确保每一次测试活动,无论属于哪个军种或机构,都能为一个更大的证据体系做出贡献。这些经过整理的数据是先进建模与仿真(M&S)和任务工程(ME)工作的基本燃料,允许进行更深入的分析和更明智的投资决策。
联合跨部门特遣部队401认识到,每一次测试、演示和评估都将有独特的目标和约束。因此,我们强烈鼓励参与组织在规划过程中尽早与联合跨部门特遣部队401协调,讨论其具体需求。这种早期协作将使联合跨部门特遣部队能够推荐最有效的数据收集策略,确保满足独特活动的目标,同时仍与企业级聚合的通用数据标准保持一致。
严谨的安全和附带效应评估:保护友军和公众是任何测试与评估活动不容妥协的先决条件。在所有实况测试之前,必须进行严格的安全评估,包括清场区、安全距离、靶场安全官,建立清晰的安全边界和交战规则。此外,评估必须包括一个正式的方法来衡量和描述反小型无人航空系统的潜在附带效应,包括动能破片场和电磁干扰,以确保该系统不仅有效,而且在其预期作战环境中安全且适用。
5.2 想定设计
有效的反小型无人航空系统想定设计是任何有意义的测试与评估工作的基石,因为它提供了衡量系统性能的基本背景。它通过创建一个现实的作战叙事,将测试从简单的技术测量转变为以任务为中心的评估。一个精心设计的想定细致地定义了威胁特征、物理和电磁环境的复杂性,以及小型无人航空系统将采用的具体战术。这种严谨性确保反小型无人航空系统不仅仅是根据规格表进行评估,而且是在可信的、具有挑战性的条件下受到真正的压力测试,提供了验证其真实作战效能的唯一可靠方法。
5.2.1 测试矩阵示例
这个假想的测试矩阵概述了一系列复杂的飞行场景,详细说明了固定翼和多旋翼无人航空系统的具体测试条件。对于每次测试运行,它改变了关键参数,如发射点、飞行路径、速度和高度。为保持清晰,在整个事件中保持不变的变量(例如,反小型无人航空系统位置、导航模式)应单独记录,而不是在表格中重复。也强烈建议用飞行路线的视觉示意图补充此矩阵,以增强评估团队的态势感知。
| 概览 | 任务 | 目标平台 | 高度(英尺离地高) | 速度(英里/小时) | 时间 | 发射点 |
|---|---|---|---|---|---|---|
| R-1 | 情报监视侦察 | Raider | 400 | 20 | 昼间 | 11/17 |
| R-2 | 单向攻击 | C5ISR 第一人称视角 | 100 | 60 | 夜间 | 夜间 |
| F-1a | 单向攻击(S形曲线) | Talon Pro | 800 | 70 | 昼间 | 11/53 |
| F-2 | 单向攻击 | Mojito | 3000 | 125 | 夜间 | 51B |
| M-1 | 多目标-情报监视侦察 | Raider | 1000 | 39 | 昼间 | 51B |
| C5ISR 第一人称视角 | 400 | 80 | 11 | |||
| Squidhawk 1200 | 100 | 30 | 10 | |||
| M-2b | 多目标-单向攻击 | Raider | 500 | 39 | 昼间 | 51B |
| Mojito | 1000 | 125 | 53 | |||
| Mavic Pro | 1500 | 46 | 11 |
注:M-1和M-2任务概览将使用三种不同的无人航空系统同时操作进行。a F-1概览中,平台将执行一个大的S形曲线(转弯)而不是直线飞行。b M-2概览将包括协调发射,以使所有目标间隔大约10秒到达。
表 2.1-4. 复制者2 打击性能测试矩阵
图1 - 假想测试矩阵
5.3 评估环境
评估环境是反小型无人航空系统测试中最关键的变量之一,因为它直接影响系统的性能和结果的有效性。最终目标是在具有作战代表性的环境中进行测试,该环境紧密模拟系统将实际部署的物理和电磁环境。在无菌、开阔的沙漠靶场进行测试可能会产生令人印象深刻的技术规格,但这会产生一种危险的错误安全感,因为这样的条件并不能反映现代作战环境的复杂现实。
一个真正具有代表性的环境是对反小型无人航空系统的最终试金石。城市峡谷造成视线阻挡,挑战雷达和摄像头的跟踪。人口密集地区产生的杂乱电磁频谱充满了Wi-Fi和蜂窝信号,可能淹没射频传感器并产生高干扰报警率。雨、雾和热霾等大气条件会显著降低光电/红外系统的性能。因此,在考虑到物理杂波、电磁干扰和大气效应这种复杂相互作用的环境中评估系统,对于验证反小型无人航空系统的真实作战效能至关重要。
5.4 用于评估的任务工程与建模仿真
任务工程(ME)是开发有效反小型无人航空系统特征的基础,因为它将系统性能置于更广泛的作战背景下。任务工程不是孤立地评估传感器或效应器,而是根据现实的威胁时间线和目标,分析从探测到打击的整个端到端杀伤链。建模与仿真(M&S)是补充这种分析的不可或缺的工具。建模与仿真允许对巨大的权衡空间进行具有成本效益的探索,实现对复杂场景(例如协调集群攻击或在高密度电磁环境中的操作)的可重复、高保真度测试,这些场景通常在实况野外试验中因成本过高、过于危险或不切实际而难以复制。通过建模与仿真,规划者可以进行“假设”分析,量化单个性能参数(如跟踪精度或效应器射程)的变化如何影响整体任务结果。最终,任务工程和建模与仿真的整合使国防部能够定义、验证和优化反小型无人航空系统的特征,确保在投入大量资源用于物理原型和测试之前,所开发的能力与任务成功直接关联。
为了充分利用任务工程和建模与仿真驱动的方法,为它们提供动力的数据必须既易于获取又可解释。因此,为所有测试与评估活动采用通用数据格式至关重要。当来自不同传感器测试、实弹射击事件和作战评估的性能数据以标准化模式记录时,它可以被输入到任务工程工具和仿真环境中。这不仅能够直接比较不同的系统,而且创建了一个强大的数字反馈回路。结果可用于持续验证和完善模型,为未来的实况测试事件提供信息,从而最终提高对基于仿真的研究结果的信心,并加速开发更有效的反小型无人航空系统能力。
6. 数据收集与分析
严谨的数据收集与分析构成任何可信评估工作的基石,将简单的通过/失败观察转变为对系统性能的更全面的诊断性理解。它提供了客观证据,用于识别关键的杀伤链瓶颈、量化特定条件下的性能,并验证系统随时间的改进。最终,有纪律的数据收集与分析策略超越了传闻反馈,使得能够就系统采办、条令开发和未来投资做出真正由数据驱动的决策。
7. 报告与数据管理
为确保反小型无人航空系统评估指标的完整性、准确性和标准化,所有评估必须遵守严格的报告和数据管理规程。各组织必须与指定的测试与评估活动进行协调,这些活动能够在整个特征描述过程中促进专业、高保真度的数据收集。数据捕获对于验证关键性能参数(KPPs)和支持稳健的系统分析至关重要。为满足此要求,联合跨部门特遣部队401将积极协助各组织协调必要的数据收集资源和基础设施,确保应用标准化的方法,并且所有生成的数据集都满足后续审查、分析和授权传播的基线分析标准。
帕兰蒂尔科技公司的Maven智能系统代表了当代军事行动中人工智能最具作战意义的部署之一。该系统最初于2017年作为美国国防部Maven项目的计算机视觉层开发,现已演变成一个全频谱、人工智能赋能的作战平台,融合了来自超过179个异构数据源的情报,集成了大型语言模型以提供分析决策支持,并将传感器到射手的时间线从数小时压缩至数分钟。该系统于2026年被正式指定为美国国防部记录项目,目前已在所有美国联合作战司令部和北约盟军作战司令部部署。本文对Maven智能系统进行了结构化的技术与政策分析,审视了其基于本体的架构、开放式集成设计、大型语言模型中心以及人工智能辅助目标瞄准工作流。我们评估了其对联合全域指挥控制及盟军互操作性的战略影响,继而探讨了人工智能辅助目标瞄准带来的伦理与取证问责挑战——包括人类审议时间被压缩、算法问责缺失以及与国际人道法之间的合规紧张关系。为加强取证问责分析,我们进一步提出了一个概念性审计框架,旨在通过本体可追溯性、模型推断日志和操作员授权记录来重建人工智能辅助的目标瞄准决策。最后,我们指出了数字取证和网络安全领域亟需解决的六个优先研究空白。
情报、监视和决策。在国防领域最具作战意义的人工智能系统中,帕兰蒂尔科技公司的Maven智能系统是其中之一——这是一个云原生、软件即服务平台,它集成了异构的军事数据源,部署大型语言模型以提供分析支持,并在作战规模上自动化目标瞄准工作流。截至2026年,Maven智能系统已被正式指定为美国国防部记录项目[1],并在所有联合作战司令部实现生产级部署。北约盟军作战司令部于2025年3月采购了该系统,这是北约历史上最快的采购案例之一[2]。该系统至2029年高达13亿美元的合同上限[4],以及其对Anthropic的Claude、OpenAI的ChatGPT和Meta的Llama模型的集成[6],均凸显了其在西方作战基础设施中的核心地位。尽管规模如此之大,Maven智能系统在同行评审文献中却鲜有论述。关于军事人工智能的学术讨论主要集中在抽象的自主武器框架上,而非具体部署的系统。本文旨在弥补这一空白,为数字取证和网络安全领域——一个对Maven智能系统引发的关于人工智能问责、算法可审计性及人工智能辅助致命决策的取证可追溯性产生紧迫关切的群体——提供一份基于公开来源的结构化技术与政策分析。
除了分析Maven智能系统的作战架构和战略部署外,本文还提出了一个用于人工智能辅助目标瞄准系统的概念性取证审计框架。该框架旨在改善军事人工智能环境中的证据可追溯性、作战问责制和事后取证重建能力。
美国能源部核能办公室(DOE-NE)的先进反应堆保障与安全(ARSS)计划旨在为国内部署先进核反应堆相关的保障与安全挑战寻找新的技术解决方案。ARSS计划的研究正在探索利用新型探测技术的替代性实物保护系统(PPS)方案。本报告展示了一种新形式人工智能(AI)的测试结果,该技术被称为蓄意运动分析(DMA),用于在空间和时间上融合有源雷达与无源射频(RF)探测,从而显著提升对无人航空系统(UAS)的探测能力。DMA旨在过滤误报警,同时在核电厂(NPP)和先进小型模块化反应堆(ASMR)周界提供高度可靠的入侵探测。这种形式的人工智能被认为是未来安全的关键使能技术,并支持ARSS对替代性实物保护系统的研究。
当前,无人航空系统(UAS)构成的威胁备受关注,并且随着商用现货(COTS)智能手机和自主导航投资的推动,低成本UAS能力持续进步,预计威胁将进一步增长。UAS导航技术的进步使得其能够利用航点或基于物体识别的制导进行隐蔽入侵,这些方式无需射频(RF)信号进行操控。具有恶意的团体可以将UAS用作多种攻击选项的投送机制,包括投送爆炸物、破坏性高能电磁装置以及人员。UAS也可用作监视技术而不被发现。
评估UAS构成的威胁以及开发反无人机系统(CUAS)技术,是美国能源部核能办公室(DOE-NE)先进反应堆保障与安全(ARSS)项目组合中的关键活动。
为支持DOE-NE的使命,一种名为蓄意运动分析(DMA)的人工智能(AI)技术被开发出来,该技术已被证明可以提高入侵探测性能,并使得迄今为止被认为不可行的新安全架构成为可能。本报告记录了DMA算法应用于UAS探测的测试结果。测试于2025年7月在柯特兰空军基地(KAFB)的桑迪亚国家实验室(Sandia)进行。测试与评估(T&E)工作侧重于确定三种UAS探测雷达和一种无源射频UAS传感器的性能。雷达传感器和无源射频传感器如下:
• Magos雷达
• EchoGuard雷达
• EchoShield雷达
• D-Fend无源射频传感器
进行了一系列结构化测试,包括95次UAS飞行,涉及四种不同尺寸的UAS、11条不同飞行路径、两种不同高度以及三种不同类型的射频控制信号。本系列测试中使用的UAS总结如下,设备详情见表3。
• 大疆Mavic 3 Pro(最大尺寸335毫米/13英寸)
• Tarot X(最大尺寸500毫米/20英寸)
• Alto X(最大尺寸1145毫米/45英寸)
• RV Jet(最大尺寸1950毫米/77英寸)
表ES 1总结的测试结果显示了单个传感器的性能,以及使用DMA将雷达与无源射频传感器融合后的性能。有源雷达和无源射频传感器的融合体现了互补传感器的概念,即一个传感器的优势可以弥补另一个传感器的不足。
表ES 1. 探测与干扰报警结果摘要。
结果显示,当雷达与D-Fend无源射频传感器融合时,探测结果(表格左侧)有显著改善,同时干扰报警(表格右侧)有所减少。每个传感器的干扰报警在融合后均大幅下降。D-Fend在15.6天的干扰报警率(NAR)收集期内未报告任何干扰报警,这与每个雷达各自的NAR相比表现令人印象深刻。将D-Fend极低的NAR性能与雷达较高的NAR融合时,融合后的NAR显著下降,显示了传感器融合的优势。由于DMA算法与传感器无关,因此也可以使用其他传感器。具体而言,需要更好的无源射频传感器,因为D-Fend的射频特征库中仅包含四种UAS模型中的一种进行过测试。存在比D-Fend性能更强的无源射频传感器,但由于成本过高(约100万美元),项目预算无法负担。尽管本项目使用了性能较低的无源射频传感器,但它确实达到了展示DMA算法传感器融合能力优势的目的。
雷达与无源射频传感器融合的结果意义重大,其中DMA融合的EchoShield雷达与D-Fend无源射频传感器获得了最佳的探测率,达到88%,且每日NAR为两次。DMA传感器融合的优势得到了清晰证明,显示了UAS探测率的提升和NAR的显著降低,这正是本项目的两个主要目标。在分析探测数据时,观察到雷达传感器能够探测到地面移动的目标。如果同一雷达既能探测地面入侵者又能探测UAS,将构成一种能为场地安全管理者节省大量成本的传感器。具体而言,以一个传感器的成本同时提供地面和空中入侵者探测能力,对场地实物保护系统(PPS)可能是有利的。先前的DMA测试结果表明,使用雷达探测地面入侵者能够提供可靠的地面入侵者探测,感知概率超过90%,置信度下限为95%[14]。DMA算法可以通过在不同高度创建垂直扇区以及为地面入侵创建水平扇区来利用这种“一举两得”的优势。事实上,在本系列测试中已实施了垂直和水平扇区划分,并对结果进行了研究但未报告。据信,DMA传感器融合算法是此类算法中的首创,因为本文作者尚未知悉有任何其他传感器融合算法报告过此级别的结果。相信DMA传感器融合系统的成功实施,为应对当前及未来的UAS技术提供了一套UAS探测系统。
世界模型正在成为通向通用智能的一条核心路线:它不只是让模型“看见”当前输入,而是让模型学习环境如何演化、行动会带来什么后果,以及未来可能出现哪些状态。换句话说,世界模型试图在机器内部建立一个可预测、可想象、可规划的环境模拟器。正因为如此,它同时连接了强化学习、机器人、自动驾驶、视频生成、多模态智能体、科学建模和医学影像等多个方向。 这篇综述的价值在于,它没有只围绕某一种算法或某一个应用展开,而是提出了一个多轴分类框架:从架构看,世界模型可以按表示形式、动力学建模、模态、学习范式和下游用途划分;从方法论看,它覆盖状态空间模型、Transformer、扩散模型、物理信息模型和语言增强多模态系统;从推理看,它强调想象式规划、潜在策略学习、反事实推理和不确定性下规划;从应用看,则横跨机器人、自动驾驶、视频预测、多模态智能体、强化学习、科学建模、医学、教育测量和商业金融。 本文按原论文结构展开,并保留一级标题的英文与中文对照。为了便于公众号读者快速建立全局图景,本文增加了导读,并补充三张中文综述配图:第一张概括论文的四轴分类框架,第二张解释世界模型的关键组件与信息流,第三张说明基于想象力的潜在空间规划。阅读时可以抓住一个主线:世界模型的本质,是把“直接行动”变成“先在内部模拟,再基于模拟结果行动”。
世界模型,即学习环境结构及动力学的内部模拟器,已成为追求通用人工智能的核心范式,能够让智能体在所学表示中进行预测、规划和推理。尽管在强化学习、机器人、自动驾驶和视频生成等领域取得了快速进展,该领域仍缺乏一个能够整合其多样化架构选择、训练方法、推理机制和应用场景的统一框架。本文通过引入一个全面的多轴分类法来填补这一空白,该分类法沿四个互补维度组织:(i) 架构,涵盖表示格式、动力学公式、输入模态、学习范式和下游应用;(ii) 方法论家族,包括状态空间与循环方法、基于Transformer的模型、基于扩散的生成器、物理信息网络以及语言增强的多模态系统;(iii) 推理策略,涵盖基于想象力的规划、潜在策略学习、反事实推理和不确定性下的规划;(iv) 应用领域,涵盖机器人、自动驾驶、视频预测、多模态智能体、强化学习、科学建模、医学成像、教育测量以及商业与金融。追溯该领域从早期认知科学基础到里程碑系统(如PlaNet、Dreamer家族、MuZero、Sora、Cosmos和Genie)的发展历程,本文考察了这些维度如何相互作用,并强调了链式思维推理与世界模型想象力近期融合的趋势。本文跨这些轴回顾了评估协议和基准,识别了持续存在的挑战——包括复合预测误差、模拟到现实迁移和碎片化评估实践——并概述了朝向统一多模态世界模型、基础规模交互式模拟器以及在安全关键领域安全部署的未来方向。通过在一个单一跨学科框架内综合这些发展,本调查为推进世界模型研究迈向更通用、更稳健、更有能力的自主系统提供了结构化路线图。 图1:世界模型综述的四轴分类框架。该图根据原论文 图1 与全文组织结构重绘,概括架构、方法论家族、推理策略和应用领域四个互补维度。来源:根据原论文内容中文重绘。
对通用人工智能的追求长期以来激励着研究者开发智能系统,这些系统不仅能够从多模态数据中识别有意义的模式,还能获得对其运行环境的一致且因果性的理解。这一抱负的核心是世界模型的概念——一个捕获环境动力学并支持正向和反事实推演以进行感知、预测和决策的内部模拟器。这一思想的智力基础远远超出了当代机器学习。在认知科学中,长期以来人们认识到,人类通过将外部世界抽象为简化元素和关系结构来解读外部世界。这一观点在Johnson-Laird的心理模型理论中得到阐述,并与人工智能领域的早期发展产生共鸣,例如Minsky在1970年代提出的框架表示。简而言之,这些视角凸显了对构建能够推理复杂环境的内部表示的长期跨学科兴趣。 虽然这些早期框架主要是符号化的,但深度学习的出现为将世界模型概念操作化开辟了新时代。在强化学习中,Ha和Schmidhuber通过展示生成神经网络能够以无监督方式学习环境的紧凑时空表示,重新激发了这一思想。值得注意的是,他们的工作表明,智能体甚至可以在完全由这些学习表示派生出的内部生成模拟中进行训练。更近期,LeCun将世界模型确定为自主智能的核心架构组件,提出世界模型应推断关于世界当前状态的缺失信息,并根据想象的行动序列预测可能的未来状态。 自这些开创性贡献以来,该领域在范围和雄心方面迅速扩展。在基于模型的强化学习中,Dreamer系列证明了智能体可以完全通过潜在想象来学习复杂行为,使用统一的算法框架从简单的控制任务扩展到多样化的领域。与此同时,DeepMind的MuZero在没有获取显式环境规则的情况下,通过学习仅预测规划相关数量的隐式模型,在多个具有挑战性的领域实现了超人类性能。 在基于模型的强化学习之外,OpenAI的Sora引入了大规模视频生成作为世界模拟的一种形式,引发了关于此类模型是否构成真正世界模型的辩论。来自Meta、DeepMind和NVIDIA的基础模型方法进一步证明了大规模自监督预训练可以产生可操作的、分别用于机器人规划、交互式环境生成和物理AI的世界模拟器。这些努力与LeCun的更广泛愿景一致,即一个以可配置预测世界模型为中心的模块化认知架构,通过他提出的联合嵌入预测架构训练,为纯粹生成方法提供了一个理论上有根据的替代方案。总的来说,这些发展已将世界模型从一个基于模型强化学习的利基话题转变为追求通用人工智能的核心支柱。 在这个不断扩展的领域中,一个特别有前景的发展是链式思维推理与世界模型的整合。传统的链式思维将推理表示为显式的自然语言标记序列,这个过程可能在计算上昂贵,且受限于离散文本表示的相对较低信息密度。最近的研究开始将这个推理过程转移到潜在空间,其中世界模型为多步深思提供底层基质。例如,Coconut引入了连续思维表示,直接在潜在空间实现广度优先推理。类似地,LCDrive通过将动作提议标记与世界模型潜在预测交错在一起,整合了链式思维式推理与行动规划,允许代理在提交到轨迹之前模拟反事实未来。基于此方向,FutureX提出了一种自动思考机制,仅在场景复杂性需要审慎推理时才动态激活潜在世界模型。总的来说,这些方法表明,世界模型可能不仅作为预测模拟器,而且作为推理引擎本身发挥作用——有可能用基于接地、时空的想象链取代语言思维链。 值得注意的是,世界模型日益增长的重要性也源于对基于Transformer架构构建的大型语言模型根本局限性的日益认识。尽管像GPT-4和推理增强系统如o1这样的模型在语言理解和代码生成任务中取得了显著成功,但这些系统主要运行在文本标记的离散且相对低维的空间中。因此,它们缺乏对连续且高维物理世界的接地理解。与此同时,大型语言模型通常缺乏持久的世界状态表示,因果推理能力有限,并且难以进行长时域规划——而这些能力是生物体通常具备的。这一差距反映了Moravec悖论:尽管诸如语言处理和象棋对弈之类的高级认知任务对机器而言似乎可行,但经过数十亿年生物进化锤炼的感觉运动能力却仍然难以复制。 相比之下,世界模型旨在通过学习预测物理或模拟环境中行动的结果来解决这些局限性,从而构建对象动态和时间演化的内部表示。通过使智能体能够模拟可能的未来并评估替代行动序列,世界模型为在复杂环境中进行规划、推理和自适应决策提供了基础。在这一方向上日益增长的机构投资——例如先进机器智能的建立、DeepMind对Genie模型家族以及NVIDIA Cosmos平台的持续开发——标志着一种新兴共识:人工智能的下一个前沿在于构建能够建模并与世界本身交互的系统。 然而,随着研究活动加速,世界模型吸引了来自日益多样化社区的关注,一个根本问题依然存在:到底什么构成一个世界模型?在基于模型的强化学习中,该概念通常狭义地定义为一个学习到的转移函数ˆT(s_t+1|s_t, a_t)与奖励预测器ˆR(r_t|s_t, a_t)的耦合。然而,在更广泛的人工智能文献中,世界模型越来越多地被视作能够支持反事实推理、因果推断和分层规划的通用模拟器。这种观点的多样性导致了碎片化的研究格局,从事潜在动力学模型、生成式视频预测、以对象为中心的表示和语言接地规划的不同社区往往相对孤立地开发他们的方法。 重要的是,各种近期综述已开始组织这个快速发展的领域。例如,Ding等人从理解与预测的角度审视世界模型,而Li等人则提出针对具身人工智能的三轴分类法。额外的领域特定综述探索了在自动驾驶、机器人操作和3D/4D场景建模中的应用。尽管如此,现有的综述通常关注特定的方法论视角或应用领域,并未同时在一个统一框架内解决架构范式、方法论家族、推理机制和应用情境的全部光谱。世界模型正在开辟未充分探索的领域,包括医学成像和教育测量——这进一步凸显了对一个全面、跨学科综述的需求。 为填补这一空白,本综述提供了一个结构化的、沿若干互补轴组织的全面回顾:
图1以三个层次概述了这一格局。顶部:概念分类法将世界模型划分为两个互补视角——外部世界的隐式表示,涵盖决策制定和世界知识学习;物理世界的未来预测,涵盖视频生成和具身环境。中部:里程碑贡献的历史时间线,从Minsky的框架系统理论,经过Ha和Schmidhuber的神经世界模型、LeCun的JEPA、大型语言模型中的世界知识,到最近的包括Sora和UniSim在内的大规模模拟器。底部:代表性应用领域部署——DayDreamer用于机器人,Smallville用于社会模拟,Vista用于自动驾驶——展示了世界模型现在支持的部署环境的广度。此外,本文还进一步审视了评估协议和基准,识别了当前方法面临的关键挑战,并概述了未来研究的有希望方向。通过提供一个统一的、多轴视角,本综述旨在既为进入该领域的研究者提供全面参考,也为将世界模型推向稳健、通用的自主智能提供路线图。 图2:世界模型的关键组件与信息流。世界模型通过感知表示、记忆状态、动力学预测和规划控制,把真实交互转化为可在内部模拟的决策循环。来源:根据原论文背景部分中文重绘。
世界模型是先进的智能模型,它使智能体能够形成其环境的紧凑表示,并预测该环境如何随时间演变。在人工智能中,现代观念与基于模型的强化学习和生成式潜在动力学建模密切相关,其中智能体不仅学习如何行动,还学习世界如何响应行动而变化。 从概念上讲,世界模型植根于更广泛的预测性智能观。智能系统并非仅对当前输入做出反应,而是受益于预测未来状态、估计行动的后果以及利用内部模拟来指导行为。这一思想与认知科学、神经科学和强化学习中的早期传统,包括预测处理、预测编码和预测表示,有着紧密联系。以下各节介绍了世界模型的关键背景、概念架构和基础。
在人工智能中,世界模型是一个内部的预测模型,它捕捉环境如何随时间演变,以及这种演变如何依赖于智能体的行动。Schmidhuber早期的一个公式描述了一个构建模型的控制系统,其中控制器配备了一个额外的模块,即世界模型,用于从先前的输入-行动对中预测未来的输入。在当代机器学习中,这个术语已有所扩展,同时保留了其核心思想:世界模型是环境动力学的学习表示,支持预测、模拟和决策。Ha和Schmidhuber的神经世界模型框架通过证明智能体可以学习环境的压缩时空表示,然后使用它们来支持下游控制,使这一公式在现代深度学习中特别有影响力。 为了使这个定义精确,令o_t表示时间t的观测,a_t表示行动,r_t表示奖励,s_t表示旨在总结预测未来所需信息的潜在状态。那么,一个世界模型可以写成一个参数化的预测系统,参数为θ,它近似环境动力学: p_θ(s_{t+1}, o_{t+1}, r_t | s_t, a_t) 在完全可观测设置中,s_t可能与真实环境状态一致。在部分可观测设置中,然而,模型必须从历史h_t = (o_≤t, a_<t)推断一个潜在的、类似信念的状态,例如通过编码器的形式: s_t ∼ q_θ(s_t | h_t) 这一符号强调了一个关键点:世界模型不需要完全复现外部世界;相反,它必须表示那些对有用预测和控制来说足够的经验方面。 因此,世界模型的目标不仅仅是为了重构观测,而是学习使未来结果可预测的状态表示。在简单情况下,这可能直接涉及预测下一个观测。在更现实的场景中,尤其是在部分可观测性下,模型必须维护一个潜在状态,该状态充分总结过去的观测和行动,以预测未来的观测、奖励和其他与任务相关的信号。这一视角有助于解释为何后来的工作从原始观测预测转向潜在动力学建模。例如,PlaNet在紧凑的潜在空间中从图像学习环境动力学,并明确结合了确定性和随机性转移组件,反映了有用世界模型必须跟踪持久结构和多个可能未来不确定性的洞见。Dreamer将这一工作线扩展,不仅将学习到的潜在动力学视为预测模型,也将其作为通过想象推演进行行为学习的基质。 大多数世界模型因此包含几个反复出现的组件。首先,它们包含一个感知或表示模块,将高维感官输入压缩成一个易处理的状态表示,例如潜在向量或标记序列。其次,它们包含一个以行动为条件的动力学模型,该模型预测此潜在状态如何随时间演变。第三,许多系统集成了任务级头部,如奖励或持续预测器,因为控制不仅需要估计世界看起来会是什么样,还需要估计想象的轨迹是否可取或终结。Ha和Schmidhuber使用变分自编码器进行视觉压缩和使用循环动力学模型进行时间预测,实例化了这种分解。PlaNet和Dreamer将相同的蓝图精炼成适用于规划和策略优化的潜在状态空间模型,而Genie则将这一思想扩展为基于时空视频分词器、自回归动力学模型和学习潜在行动接口构建的生成式交互环境。 从功能角度看,世界模型的核心承诺在于想象力。一旦模型可以模拟候选行动下可能的未来轨迹,智能体就可以使用这些想象轨迹来评估计划、改进策略,或在所学环境而非真实环境中部分或完全地训练。这就是为什么世界模型与基于模型的强化学习联系如此紧密。Ha和Schmidhuber证明了策略可以在模型生成的环境内训练,然后转移回实际任务。Dreamer通过纯粹在潜在想象中学习行为,在紧凑的潜在空间中通过想象轨迹传播价值梯度,推进了这一思想。Genie通过从无标签互联网视频中引入可行动控制的虚拟世界,将相同的概念扩展到狭窄任务模拟器之外,作者将其描述为“基础世界模型”。在这些变体中,统一的原则是模型充当反事实交互的内部沙盒。 形式上,如果一个策略π(a_t|s_t)在所学动力学内部行动,该模型可以为一个时域H生成想象推演:s_t, a_t, s_{t+1}, a_{t+1}, ..., s_{t+H},其中行动从π中采样,转移从p_θ(s_{t+1}|s_t, a_t)中采样。规划或策略学习随后可以在模型内部优化期望回报:J(π) = E_{p_θ,π}[∑γ^k r_{t+k}],其中γ∈[0,1)是折扣因子。该方程捕捉了世界模型的操作性角色:它将未来的交互转变成一个可微分的或至少可模拟的对象,可以在真实环境中执行行为之前对其进行搜索、优化或评估。 定义世界模型时,有几个概念区分是有用的。一个是观察空间模型与潜在空间模型之间的区分。观察空间模型试图直接预测未来像素、帧或传感器读数,而潜在空间模型则预测压缩的隐藏状态,后者通常在计算上更高效,对规划更有用。第二个区分是确定性世界模型与随机性世界模型。确定性模型通常更简单,但它们可能会模糊真正不确定的未来;随机性模型更适合捕捉模糊性和多模态性。第三个区分涉及特定任务与通用世界模型。早期系统通常为规划或控制而在单一环境中训练,而更新的系统如Genie则寻求从大规模、弱监督数据中学习广泛可重用的、可行动控制的生成式环境。这些区分很重要,因为它们塑造了模型能表示什么、如何训练以及其预测如何被使用。 同时,世界模型并不等同于完美的模拟器或完整的现实本体。其价值取决于它是否捕捉了环境中对预测和控制至关重要的方面。Ha和Schmidhuber明确指出,无监督视觉模型可能会复现视觉上细节丰富但与任务无关的结构,同时未能捕捉对成功行为至关重要的特征。PlaNet同样将学习到的动力学视为一个长期挑战,因为误差在多步预测范围内会累积,尤其是在基于图像的领域中。因此,世界模型的实践质量通常不仅通过重构保真度来判断,还要看它是否产生稳定的想象推演、支持有用的规划、提高样本效率,并泛化到训练期间观察到的确切轨迹之外。在此意义上,世界模型的核心思想是预测性抽象:模型应将经验压缩成一种形式,这种形式足够简单以便模拟,同时足够丰富以支持有效行动。 世界模型也可以更简洁地描述为一个学习到的函数f_θ,它近似环境的转移动力学:ŝ_{t+1}, r̂_{t+1} = f_θ(s_t, a_t),其中s_t表示时间t的状态,a_t是采取的行动,ŝ_{t+1}是预测的下一个状态,r̂_{t+1}是预测的奖励。在实践中,世界模型通常在一个学习到的潜在空间z_t = enc(o_t)中运行,而不是直接在原始观测o_t上运行,从而实现紧凑的表示和易处理的长时域预测。 此外,三个属性将世界模型与通用预测模型区分开来:
大多数现代世界模型在部分可观测马尔可夫决策过程的框架内运行,涉及状态空间、行动空间、转移函数、奖励函数、观测空间、发射函数和折扣因子。世界模型近似转移函数,并可选择性地近似奖励函数和发射函数。我们将世界模型的多个关键组件总结为以下四个功能模块: 编码器。 编码器将原始的高维观测(图像、点云、传感器读数)映射到一个紧凑的潜在表示:z_t = q_ϕ(z_t | o_≤t, a_<t)。值得注意的是,这个压缩步骤至关重要,因为原始观测往往维度太高,无法支持易处理的多步预测。编码器可以是确定性的,例如卷积神经网络,也可以是随机性的,例如变分自编码器中的后验网络。例如,Ha和Schmidhuber使用基于变分自编码器的编码器将64×64图像帧压缩成32维潜在向量。类似地,Dreamer模型家族采用一个以观测历史为条件的后验编码器,来推断潜在状态的确定性和随机性组成部分。 动力学模型。 动力学模型根据当前状态和行动预测下一个潜在状态:ẑ_{t+1} = p_θ(ẑ_{t+1} | z_t, a_t)。重要的是,动力学模型构成了世界模型的核心。在基于RNN的架构中,它通常被实现为循环状态空间模型,该模型将潜在状态分解为一个保持长期时间依赖性的确定性循环组件h_t,以及一个捕捉环境不确定性的随机性组件z_t。在基于Transformer的架构中,动力学模型通常被公式化为一个自回归Transformer,它预测离散潜在序列中的后续标记。在基于扩散的方法中,未来状态通过迭代去噪过程生成。此外,在高层次上,当前世界模型可以被理解为一个由三个紧密耦合组件组成的系统:视觉模型、记忆模型和控制模型。总之,这些组件使智能体能够感知其环境、保留和组织过去信息,并基于预测的未来结果选择行动。这种分解尤其有用,因为它阐明了世界模型如何将原始感官输入转化为支持推理、规划和决策的结构化内部表示。 视觉模型负责感知和表示学习。其主要角色是将高维感官观测,如图像、视频帧或其他原始输入,转化为一个紧凑且信息丰富的潜在表示。在许多现代世界模型中,该组件使用卷积神经网络、变分自编码器、视觉Transformer或分词器来实现,这些方法将观测压缩成潜在向量或离散标记。视觉模型的重要性在于其能够过滤掉不相关的感知细节,同时保留对下游预测和控制至关重要的特征。如果没有这种压缩,直接在原始观测空间中建模未来轨迹通常在计算上不可行且统计效率低下。 记忆模型是架构的时间和预测核心。其功能是维护过去经验的表示,并建模环境的潜在状态如何随时间演变。该组件被称为“记忆”,因为它为系统提供记忆:它将当前观测与历史上下文整合,允许智能体推断隐藏结构、跟踪时间依赖性并表示未来状态的不确定性。在循环世界模型中,记忆模型通常使用循环神经网络或循环状态空间模型实现,这些模型将确定性记忆状态与随机性潜在变量相结合。在更近期的架构中,Transformer和基于扩散的序列模型也被用于捕获长范围时间依赖性和生成未来潜在轨迹。记忆模型是允许世界模型超越静态感知、作为环境动力学的预测模拟器发挥作用的关键。 控制模型是决策制定组件。给定由视觉模型产生并经记忆模型更新的潜在状态,控制模型确定应采取哪一行动以最大化期望奖励、实现特定目标或满足任务约束。在强化学习环境中,该组件可能采取策略网络、价值函数或评估由世界模型生成的想象未来推演的规划模块的形式。更广泛地说,控制模型将预测知识转化为有目的的行为。其有效性不仅取决于学习策略的质量,还取决于其他两个组件提供的感知和时间表示的保真度。 这三个模块并非独立;相反,它们作为一个集成系统运行。视觉模型将当前观测编码为潜在状态,记忆模型根据先前的上下文更新此潜在状态并预测未来状态,而控制模型则利用这些表示来评估替代方案并选择行动。它们的交互使世界模型的核心能力得以实现:在真实环境中行动之前想象可能的未来。在此意义上,视觉模型回答了正在观察什么的问题,记忆模型解决了世界如何随时间变化的问题,而控制模型则确定了接下来应该做什么。 这种三方观点也为比较不同的世界模型架构提供了一个有用的概念框架。一些系统通过强大的标记化或表示学习强调更强的视觉编码,而其他系统则侧重于更富表现力的、用于长时域预测的记忆机制。还有一些系统将更多建模能力分配给控制组件,尤其是在需要复杂规划或策略优化的任务中。尽管存在这些差异,视觉-记忆-控制分解捕获了许多基于世界模型的系统在强化学习、机器人、自主系统和科学应用中通用的结构逻辑。 奖励预测器。 奖励预测器从当前潜在状态估计标量奖励:r̂_t = p_ψ(r_t | z_t)。准确的奖励预测对于基于模型的强化学习至关重要,因为想象中的策略优化取决于预测回报的质量。MuZero证明了一个世界模型,其动力学完全在一个学习到的抽象空间中运行——预测奖励、价值和策略而从不重构观测——就足以在围棋、国际象棋、将棋和Atari游戏中达到超人类表现。 解码器。 解码器从潜在状态重构观测:ô_t = p_ξ(o_t | z_t)。解码器有两个作用:(1) 提供重构损失信号用于训练编码器和动力学模型,(2) 实现想象轨迹的可视化。然而,解码器在架构上并非必需。MuZero完全弃用了它,而基于JEPA的模型在表示空间而非像素空间中进行预测,从而规避了像素级重构的计算负担和模糊性。 在这四个模块之外,一些世界模型还包含额外组件。持续预测器估计情节终止概率。折扣预测器建模时变折扣因子。DreamerV3使用symlog变换预测和分类价值表示来实现跨域通用性。
强化学习中的一个基本区别在于,智能体是学习环境动力学的显式模型,还是直接从奖励驱动的交互中学习行为。这一分界线将基于世界模型的方法与无模型强化学习分开,并对规划、样本效率、迁移、不确定性处理和可解释性产生重要影响。 在最基础的层面,两种范式在学习什么上有所不同。世界模型方法学习预测结构——例如,在观测空间或潜在状态空间中的转移、观测和奖励动力学——以便未来轨迹可以在内部被想象或评估。相比之下,无模型强化学习通常直接从交互数据中学习策略、价值函数或两者,而无需环境的显式预测模型。在此意义上,世界模型强调学习环境如何演变,而无模型方法则强调学习哪种行动能最大化回报。 这种差异自然引出第二个区别:规划与直接策略执行。学习到的世界模型可以向前推进以支持在线规划或潜在想象。PlaNet在潜在空间中执行在线规划,PETS使用学习到的动力学进行模型预测控制,Dreamer通过学习到的潜在模型中的想象轨迹改进行为,而TD-MPC则在决策时结合潜在动力学模型与轨迹优化。相比之下,典型的无模型方法如DQN、PPO和SAC通常通过学习策略的直接前向传递或基于价值的决策规则来行动,而不是通过假设的未来进行显式搜索。 第三个区别涉及样本效率。世界模型方法的一个反复出现的动机是,学习到的动力学模型允许智能体通过预测、想象或规划更有效地重用真实经验。PILCO是基于模型控制中极端数据效率的经典例子,而PETS、MBPO和Dreamer则表明,在现代连续控制和视觉控制环境中,学习到的模型可以显著提高每个真实环境步骤的性能。无模型方法通过构造不利用显式的学习模拟器;相反,它们仅从真实或回放的转移中改进策略或价值函数。 然而,世界模型的优势伴随着一个特征性缺陷:模型偏差。如果学习到的动力学不准确,长的想象推演可能会偏离真实环境,并诱导策略利用建模错误。PILCO明确将模型偏差作为核心问题,并通过概率动力学和不确定性感知规划来解决它,而MBPO则表明短的分支推演可以在实践中减少模型利用的有害影响。无模型强化学习避免了这种特定的失败模式,因为它不依赖环境动力学的显式多步预测,尽管它牺牲了基于模型系统可用的一些结构性杠杆。 两种范式在表示学习上也存在差异。在现代世界模型架构中,潜在状态不仅被训练来支持行动选择,而且还被训练来总结环境随时间的隐藏动力学。世界模型、PlaNet和Dreamer都依赖于支持预测和想象的紧凑潜在表示,而不是纯粹的反应式控制。相比之下,在标准无模型强化学习中,学习到的表示通常仅在它们改善当前任务的策略或价值估计时才被优化。这种差异通常使世界模型的表示更自然地可重用,用于下游规划或适应。 这种区别在泛化和迁移方面变得尤为重要。DARLA表明解耦表示可以改善强化学习中的零样本迁移,而模式网络则证明,环境动力学的生成式因果模型能够在结构化任务上实现比反应式基线更强的迁移和组合泛化。更广泛地说,学习到的世界模型原则上可以与新的奖励、目标或规划器配对,而无需丢弃所有先前获得的环境动力学知识。相比之下,无模型策略通常与其训练时所基于的奖励结构更紧密地耦合。 另一个关键区别是对反事实和假设性推理的支持。因为世界模型指定了世界将如何在替代行动下演变,它们自然支持“如果”分析。Woulda, Coulda, Shoulda通过使用结构化因果模型从记录的经验中进行反事实策略搜索形式化了这一思想,而模式网络同样强调了用于推理未见情况的生成式因果结构。标准的无模型强化学习本身不提供评估替代未来的显式模拟器;任何此类推理都必须外部添加或通过价值估计间接近似。 世界模型还可以提供更大的内部预测透明度。在世界模型和Dreamer中,研究者可以检查重构、潜在推演或想象轨迹,而模式网络则暴露了一个明确结构化的对象交互和后果生成模型。相比之下,像DQN或SAC这样的无模型策略通常更隐式地将知识编码在策略和价值参数中,这可能使事后解释更加困难。 进一步的区分涉及不确定性。PETS使用概率集成来捕捉学习动力学中的不确定性,而PILCO通过高斯过程动力学直接建模不确定性;更一般地说,近似贝叶斯技术如蒙特卡洛dropout为深度模型中的预测不确定性估计提供了实用途径。无模型强化学习也可以推理不确定性,但通常是通过价值估计中的不确定性,而不是未来世界轨迹上的显式不确定性;例子包括用于深度探索的Bootstrapped DQN和用于学习回报分布的分位回归。因此,世界模型中的不确定性通常更直接地与预测和规划相关联。 尽管存在这些对比,世界模型与无模型强化学习之间的界限并非绝对。许多强大的现代智能体是混合的。Dreamer将学习到的世界模型与潜在想象中的行动者-评论家学习相结合,MBPO使用学习到的模型为离策略学习提供合成数据,TD-MPC将潜在动力学与价值学习相结合用于控制,而SPR则展示了预测性潜在目标可以显著改进原本是无模型的智能体。因此,现代格局更应被视为一个连续谱:世界模型方法将预测和内部模拟置于控制的核心,而无模型方法则将直接回报优化置于核心。 总之,根本区别在于,世界模型学习环境的一个内部预测性解释,并将其用于想象、规划或推理,而无模型强化学习则学习有效行动,无需显式的环境模拟。这种差异会传播到下游属性,包括规划能力、样本效率、对模型偏差的脆弱性、迁移潜力、反事实推理和不确定性处理。
现代世界模型中一个决定性的设计选择是未来预测是在观测空间(例如原始像素)还是在学习到的潜在空间中进行。大多数成功的世界模型在潜在空间中运行,这一设计选择对预测准确性、计算效率和下游任务性能具有重大影响。 潜在预测的动机。 现实世界中的观测通常是高维的,并包含大量与决策无关的信息。例如,一个64×64的RGB图像包含12,288个维度,而256×256的RGB图像则包含196,608个。预测未来每一帧的每个像素在计算上非常昂贵,并且迫使模型将容量分配给视觉上复杂但与决策无关的细节(例如纹理、光照变化)。相比之下,潜在空间预测将观测压缩成一个紧凑的表示z_t,该表示保留与决策相关的信息,同时过滤掉感知噪声,从而将维度降低若干数量级(例如从12,288维降到典型实现中的32-256维)。 确定性 vs. 随机性潜在空间。 早期的世界模型使用确定性编码器,但随机性环境需要能够捕获偶然不确定性的随机性潜在表示。Ha和Schmidhuber使用了具有高斯潜在空间的变分自编码器,其中潜在代码的随机性捕获了环境固有的不可预测性。循环状态空间模型引入了一种混合设计:一个保持时间记忆的确定性循环状态h_t,结合一个从学习到的先验或后验分布中采样的随机性组件z_t。这种双重结构已被整个Dreamer系列及许多后续模型所采用。DreamerV2进一步证明,离散的分类潜在变量在Atari游戏上优于连续的高斯潜在变量,可能是因为离散表示更好地捕获了游戏状态转变的离散性质。 连续 vs. 离散标记化。 连续潜在空间的一种替代方案是离散标记化,其中观测被映射到一个有限的学习代码词汇表。例如,IRIS使用一个VQ-VAE分词器将图像帧转换为离散标记,然后通过下一个标记预测与Transformer建模动力学。这一公式创建了与语言建模的紧密平行关系,并允许使用分类交叉熵目标进行训练。STORM采用了一种混合策略,结合了随机性连续潜在变量与基于Transformer的动力学,从而占据连续方法与完全离散方法之间的中间位置。 表示空间中的预测。 LeCun提出了联合嵌入预测架构作为像素空间预测和基于重构的潜在建模的原则性替代方案。在JEPA中,模型直接预测嵌入空间中未来观测的表示,而不是重构观测本身,并且不需要解码器。这一公式避开了像素重构的瓶颈,该瓶颈通常惩罚在任务无关细节上的错误,也避免了像素级损失相关的模态平均效应。I-JEPA验证了这种方法在图像表示学习中的有效性,而V-JEPA和V-JEPA 2则将其扩展到视频,在大规模视频理解和零样本机器人规划中展示了强大性能。 潜在空间结构与下游性能。 潜在空间的结构直接影响想象推演的质量,进而影响在想象轨迹上训练的策略的有效性。如果潜在空间未能编码决策相关因素,如对象位置、速度或接触动力学,那么即使准确的动力学模型也会生成无信息的预测。相反,一个试图保留每个感知特征的过于详细的潜在空间可能将容量浪费在无关变化上。MuZero的成功,它学习了一个完全为奖励和价值预测优化的潜在表示而没有任何重构目标,说明任务对齐的潜在空间可以优于基于重构的替代方案。DreamerV3通过使用symlog变换和分类价值分布在奖励尺度高度可变的域之间保持校准,进一步强调了精心结构化的潜在表示的重要性。 尽管潜在世界模型取得了成功,仍有几个开放挑战,包括:(1) 潜在空间崩溃,其中不同的观测被映射到相同的编码,关键信息丢失;(2) 表示漂移,其中潜在空间在训练内发生变化,破坏了想象数据的一致性;(3) 解耦,即学习对应可解释物理因素的潜在维度;以及 (4) 可扩展性,即设计在环境复杂性增加时仍保持紧凑和富有表达力的潜在空间。
世界模型架构可以沿几个互补的轴进行分析,每个轴反映了模型如何编码观测、表示动力学、处理不确定性以及支持下游决策制定的一个关键设计维度。简而言之,这些轴为比较现有方法和理解不同架构选择之间的权衡提供了一个结构化框架。世界模型架构可以按下面描述的若干互补轴进行分类。
选择如何表示环境状态是一个基本的设计决策,它决定了世界模型保留什么信息、多步预测的易处理性以及模型可以支持什么下游任务。我们识别出六个主要的表示家族。 观测空间表示。 最直接的方法是在原始观测空间——通常是RGB像素或LiDAR点云——中预测未来观测。早期的视频预测模型在像素空间中运行,近期的基于扩散的世界模型如DIAMOND和GameNGen也是如此。优点是没有信息被丢弃:每个视觉细节都可供下游使用。缺点是维度高、模型容量被分配给决策无关的细节,以及多步预测的计算成本。像素空间模型在视觉保真度本身成为目标时最合适,例如在视频生成或游戏模拟中。 连续潜在表示。 大多数成功的世界模型通过一个学习到的编码器将观测压缩成连续潜在向量,然后在这个紧凑空间中预测动力学。Ha和Schmidhuber使用变分自编码器将64×64帧压缩成32维高斯潜在代码。循环状态空间模型引入了一个混合连续潜在状态,包括一个保持时间记忆的确定性循环组件h_t,以及一个从学习到的高斯分布采样的随机性组件z_t: h_t = GRU(h_{t-1}, z_{t-1}, a_{t-1}), z_t ∼ N(µ_θ(h_t), σ_θ(h_t)) 这种确定性与随机性的划分已被整个Dreamer系列和后续许多模型所采用。连续潜在空间通过随机性组件提供原则性的不确定性量化,并且非常适合那些状态之间平滑插值有意义的连续控制领域。其局限性是,当使用像素级解码器时,由于高斯似然假设,倾向于产生模糊的重构。 离散标记表示。 一种替代方案是将观测量化到一个有限的离散代码词汇表中,通常通过一个VQ-VAE分词器。IRIS将每个图像帧转换为一个离散标记序列,然后将动力学视为下一个标记预测——与语言建模建立了直接的平行关系。DreamerV2证明离散的分类潜在变量在Atari游戏上优于连续的高斯潜在变量,可能是因为离散表示更好地捕获了游戏状态转变的离散性质。GAIA-1将这种方法扩展到驾驶,标记化视频帧并使用一个90亿参数的Transformer自回归地预测未来标记。离散表示能够利用强大的自回归Transformer架构与分类交叉熵训练,但由于量化瓶颈而牺牲了细粒度的空间细节。 联合嵌入预测。 LeCun提出了联合嵌入预测架构作为一种原则性替代方案,它既避免了像素空间重构,也避免了显式标记化。在JEPA中,一个预测器网络将当前观测的嵌入映射到下一个观测的嵌入,目标嵌入由一个指数移动平均编码器产生:ẑ_{t+1} = predictor_θ(z_t), z_target_{t+1} = enc_θ̄(o_{t+1})。不使用解码器;损失完全在表示空间中运作。这避免了像素重构瓶颈和像素级损失中固有的模态平均。I-JEPA在图像上验证了这一点。V-JEPA将其扩展到视频,而V-JEPA 2——在超过一百万小时的互联网视频上预训练——在视频理解中达到了最先进水平,并实现了零样本机器人规划。MuZero也可以被视为在一个任务对齐的表示空间中运行,因为其潜在动力学完全是为奖励和价值预测优化的,没有任何重构目标。 结构化和以对象为中心的表示。 不是将世界状态视为一个整体的向量或标记序列,以对象为中心的模型将其分解为一组插槽,每个插槽代表一个具有自身属性的不同实体:s_t = {slot¹_t, slot²_t, ..., slotᴺ_t}。Kipf等人引入了对比结构化世界模型,该模型通过对比学习学习以对象为中心的表示,并通过一个图神经网络对插槽上的动力学进行建模。RoboDreamer将语言指令分解为原始组件,并使用以每个组件为条件的组成扩散模型。DreMa将高斯泼溅与物理模拟器结合起来进行对象级场景操作。以对象为中心的表示支持对新对象配置的组合泛化,并且更可解释,但它们随着对象数量的增加而扩展性差,并且假设环境可以干净地分解为离散实体。 3D和占用率表示。 对于具有丰富空间结构的领域,世界模型可以将环境表示为3D占用网格、体素或点云。OccWorld使用类似GPT的模型自回归地预测未来3D占用标记,用于自动驾驶,实现了空间一致的场景预测。Copilot4D通过学习通过离散扩散预测LiDAR点云,在1秒预测中实现了超过65%的Chamfer距离减少。Kong等人调查了3D和4D世界建模方法,建立了跨视频、基于占用和基于点云生成的分类。这些表示对于自动驾驶和机器人尤为有价值,因为3D空间推理对于安全规划至关重要,但它们会产生与空间分辨率成立方关系增长的显著内存和计算成本。
理解世界模型的一个基本维度在于它们如何表示和学习动力学,即潜在状态的时间演化。这种视角不是关注架构组件,而是根据转移机制的形式对模型进行分类,通常表示为p(s_{t+1}|s_t, a_t)。这一观点对于诸如医疗健康等动力学对应于疾病进展、治疗反应和纵向生理变化的领域尤其相关。 在下文中,我们根据世界模型的动力学公式对其进行分类,范围从显式参数化转移到隐式生成过程和自适应基于记忆的机制。 确定性动力学。 确定性动力学模型假设下一个状态是当前状态的单值函数,即s_{t+1} = f_θ(s_t, a_t)。这种公式简化了学习,并能够在潜在空间中高效地进行多步推演。早期的世界模型如World Models和PlaNet采用这种范式,使用循环网络传播潜在状态。后续工作如Dreamer进一步证明,确定性潜在动力学可以支持长时域想象和策略优化。 然而,确定性公式本质上难以捕捉多模态未来和不确定性,常常导致平均化或过于自信的预测。这种局限性在医疗应用中尤其成问题,因为疾病轨迹表现出显著的患者间变异性。 随机性动力学。 为了解决确定性转移的局限性,随机性动力学模型引入潜在变量来表示不确定性,将转移建模为分布而非点估计。在实践中,这通常通过变分状态空间模型实现,其中潜在随机性变量捕获影响时间演化的未观测因素。现代潜在世界模型,包括PlaNet和Dreamer的扩展,将随机性潜在组件整合到其转移公式中,使其能够表示环境中的偶然不确定性。 隐式生成动力学。 隐式生成动力学不直接参数化转移密度p(s_{t+1}|s_t, a_t),而是学习一个隐式模型,该模型可以从中进行采样或进行密度比估计。基于扩散的世界模型是一个典型例子,其中未来的潜在状态或观测通过逐步去噪过程生成。这些方法在生成高保真视频预测方面特别有效,其中显式密度建模可能会由于复杂的高维分布而难以处理。 表示空间预测动力学。 表示空间预测动力学模型预测在表示空间的转移,而不输出关于原始观测或潜在变量的显式分布。JEPA和相关方法将预测头直接放置在由编码器产生的抽象表示之上。这使得模型能够专注于预测对下游任务有用的抽象特征,而不是详尽地重建观测。 记忆增强动力学。 记忆增强动力学通过外部记忆机制扩展了标准的转移公式,允许模型维护和查询超出标准循环状态或Transformer上下文窗口的长期依赖关系。这些系统通常将标准动力学模型与可微分内存模块配对,允许模型在需要时检索相关信息。 讨论与开放挑战。 每种动力学公式都代表了易处理性、表达能力和信息保留之间的不同权衡。确定性模型在高维状态空间中可以高效训练和推演,但缺乏捕捉偶然不确定性的能力。随机性模型提供更丰富的表示,但可能更难训练且更容易出现潜在空间崩溃。隐式生成模型可以产生高度逼真的预测,但在可靠性至关重要的任务关键应用中可能难以控制。表示空间方法避免了像素级预测的不必要细节,但可能丢弃对某些下游任务有用的信息。记忆增强机制提供了扩展上下文长度的前景,但增加了架构复杂性和计算开销。当前系统的关键挑战包括确保多步推演预测在长时间范围内保持连贯性、有效平衡确定性和随机性组件以捕获不同类型的不确定性,以及开发同时保持计算效率和表示能力的动力学公式。
世界模型可以根据它们处理和理解输入数据的感官模态进行分类。这一分类维度因其对世界模型架构、学习目标及其适用应用领域的直接实际影响而具有根本重要性。选择输入模态决定了模型能够建模的感知现实部分,进而塑造其预测对象和方式。在下文中,我们识别了主要的模态类别。 纯视觉世界模型。 纯视觉世界模型处理视觉感官数据,主要是图像和视频。它们在所有世界模型架构中最为常见,涵盖了从早期基于CNN的架构到近期的基于Transformer和扩散的模型。这类模型的优势在于,视觉数据提供了一种无需转录即可大规模获得的环境丰富表示。这使得它们特别适用于机器人、自动驾驶和视频生成等涉及物理世界交互和理解的应用。 纯语言世界模型。 纯语言世界模型将文本作为唯一的输入和输出模态,将世界的结构和动力学建模为文本标记序列的转换。这个方向与大型语言模型的研究紧密交织。虽然LLM本身通常不被认为是世界模型,但最近的研究工作已开始探讨如何赋予它们核心的世界模型能力——特别是在需要跟踪状态变化和预测行动后果的场景中。 3D几何世界模型。 3D几何世界模型将环境的3D结构显式地纳入其表示和预测机制。它们不再从2D视图操作,而是旨在捕捉空间几何、体积占用以及对象和表面在3D中的运动。这一类别由自动驾驶和机器人操作等应用驱动,在这些应用中,精确的3D推理对于避免碰撞和精确操作至关重要。 本体感觉和触觉世界模型。 本体感觉和触觉世界模型处理来自智能体自身身体和触觉接触的感官反馈。本体感觉——感知身体部位相对位置和运动的能力——对于具有多个关节的机器人系统至关重要。触觉传感提供关于接触力、纹理和滑移的信息,这对于灵巧操作至关重要。 多模态融合世界模型。 多模态融合世界模型同时从多个感官通道接收输入,将视觉、语言、3D几何、本体感觉和触觉信息整合成统一的表示。这种方法利用了不同模态提供的互补信息——视觉提供环境上下文的丰富语义,语言允许高级指令和抽象推理,3D信息提供精确的空间推理,本体感觉和触觉则支持物理交互的精细控制。 讨论与开放挑战。 模态分类揭示了当前世界模型研究中的一个基本张力:建模通用智能所需的模态多样性与针对特定应用领域优化架构的效率之间的平衡。一个关键挑战是如何在不对齐或缺失的模态数据下学习;在许多现实世界场景中,一个或多个模态可能不可靠或缺失,系统必须能够在信息不完整的情况下稳健运行,同时利用可用数据。另一个关键问题是不同模态表示的整合。每个模态有独特的统计特性、时间分辨率和语义粒度。
世界模型可以根据指导其学习的目标、数据迁移和训练信号进行广泛分类。学习范式决定了世界模型如何从与环境或数据的交互中获取其对环境动力学的表示。这种分类至关重要,因为它直接塑造了世界模型所学表示的质量、其所需的数据量、其计算效率以及其最终的有效性。世界模型的学习涉及多个相互关联的挑战,包括定义适当的预测目标、处理部分可观测性、避免表示崩溃以及实现对新环境的泛化。不同的学习范式为代表这些挑战和权衡提供了不同的优先方案。 自监督和无监督学习。 自监督学习,特别是通过掩码预测或时间对比目标的形式,已成为一种大规模预训练世界模型的主导范式,无需依赖奖励信号或人工注释。其核心思想是利用数据本身的结构来生成监督信号。在图像领域,这可以通过遮罩图像建模或对比学习来实现,通过要求模型从上下文预测数据缺失部分来学习丰富的语义表示。将自监督学习扩展到视频和时间序列数据自然适合世界模型学习,因为这涉及在时间上预测未来帧或潜在表示。 在线基于模型的强化学习。 在线基于模型的强化学习将世界模型的学习与决策的探索交织在一起。在此设置中,智能体与其环境交互,收集用于训练或更新世界模型的真实数据,然后使用生成的数据或规划来指导其决策。关键挑战是平衡探索与利用:智能体必须收集足够多样化的数据来学习准确的动力学模型,同时利用其当前知识来做出良好的短期决策。 离线或批量学习。 离线或批量学习涉及从一个固定的先前记录的数据集中学习世界模型,无需与环境进行进一步的交互。这在实际场景中特别有价值,因为与环境交互成本高昂、危险或困难。关键挑战来自分布偏移:当智能体使用学习到的世界模型进行规划或决策时,其生成的行动可能会将状态分布推向训练数据覆盖较差的区域,导致模型预测依赖于对未见状态的不可靠外推。 基础模型范式:大规模预训练与适应。 世界模型学习的最新前沿涉及从大规模、多样化的互联网规模数据集中预训练一个通用世界模型,然后将其适应于特定的下游任务或环境。这种“基础模型”方法旨在学习一个关于世界动力学的广泛可重用表示,该表示可以快速适应新环境,而无需从头开始训练。关键挑战包括处理跨多个环境和模态的巨大变异性,设计有效的适应策略以避免灾难性遗忘,以及确保预训练捕获了足以支持下游任务的有意义的结构。 监督和模仿学习。 世界模型可以从提供的专家演示中学习,其中世界模型被训练来预测由专家政策生成的轨迹的下一个状态。这种范式直接将世界模型学习与模仿学习联系起来。通过将环境动力学建模为从状态-行动对到下一个状态的映射,专家演示的上下文可能无法覆盖典型状态分布的完整范围。 混合和多阶段学习范式。 许多最先进的系统结合了多种学习策略,以利用每种策略的优势,同时减轻其局限性。常见的模式是两阶段方法:无监督或自监督预训练来学习一般感知,然后是基于模型的强化学习来学习任务导向的动力学和策略。 讨论与开放挑战。 世界模型的学习范式代表了数据效率、泛化、探索质量和目标导向之间的根本权衡。自监督方法从大规模无标注数据中学习丰富的世界知识,但缺乏具体任务的目标。在线RL将学习与决策交织在一起,但其探索效率可能受到限制。离线学习利用已有的数据集,但遭受分布偏移。基础模型范式提供了跨域泛化的前景,但带来了与可扩展训练和有效适应相关的挑战。该领域的未来进步将依赖于开发能够无缝整合多种范式的混合方法,以发挥每种范式的优势。
世界模型可以根据其学习表示的预期下游应用进行分类。虽然所有世界模型都旨在模拟环境动力学,但其表示针对不同任务领域进行优化,这反过来影响架构选择、学习目标和评估标准。 强化学习与规划。 世界模型在强化学习中使用时,作为内部模拟器来支持基于价值的规划、策略优化或探索。关键要求是模型能够生成准确的长期回报预测,以便智能体可以有效地将价值归因于行动。这包括基于模型的强化学习,其中世界模型用于生成想象的轨迹,智能体可以通过这些轨迹来训练其策略,以及规划,其中智能体使用世界模型在行动之前搜索最佳行动序列。 自主驾驶。 在自主驾驶中,世界模型必须支持在高度动态和不确定的环境中进行安全、实时的决策。关键要求包括:处理大规模、高维传感器数据,如摄像头和LiDAR;对静态和动态场景元素进行准确预测;支持安全关键规划;以及对分布外场景的鲁棒性。 机器人与具身AI。 在机器人和具身AI中,世界模型必须使智能体能够与物理世界进行交互,经常需要精细的操作技能和长期任务规划。关键要求是支持接触丰富的操作、处理部分可观测性和感官噪声,以及实现持续学习以适应新环境。 医疗健康与医学成像。 在医疗健康领域,世界模型被用于建模疾病进展、预测治疗结果以及分析医学图像和视频。关键要求包括:能够从高维患者数据中学习复杂的非线性动力学;处理异质性和数据稀缺性;以及提供可解释的预测以支持临床决策。 视频生成与创意模拟。 在视频生成中,世界模型的任务是从特定初始条件或用户输入生成关于未来事件的逼真预测。虽然这些方法不涉及直接的行动控制输出,但它们本质上学习视频中世界的动力学,并可以生成多样化的轨迹,反映了不同可能未来的分布。 语言推理与决策制定。 在自然语言处理的背景下,世界模型被用来赋予语言模型以追踪状态变化和推理行动后果的能力。这种能力对于涉及多步推理、对话或任务完成的系统至关重要。 讨论与开放挑战。 这一分类强调了世界模型适应的广泛任务范围。一个长期目标是开发一个统一的、通用的世界模型,它可以支持所有这些下游用途,无需针对每个应用定制。然而,每个领域独特的要求——例如自主驾驶的实时安全约束或医疗应用的纵向预测——表明,系统可能需要保留针对特定任务优化的能力,同时以通用世界知识为基础。迈向这一目标的关键挑战包括开发捕捉物理世界核心知识的预训练目标,以及设计适应机制,允许该知识有效地用于不同的下游任务。
状态空间和循环潜在世界模型是最早且最具影响力的方法论家族之一,为现代基于模型的强化学习奠定了基础。这些模型将世界状态表示为一个潜在的、通常连续的向量,并利用循环神经网络来建模环境的时间演变。该领域著名的里程碑成就包括World Models、PlaNet和Dreamer系列。其核心思想是利用编码器将高维观测压缩为紧凑的潜在表示,而后通过循环转移函数推进该表示,以支持预测和决策。
在基于序列建模的Transformer架构的成功推动下,Transformer已成为构建世界模型的核心组件。它们通过自注意力机制为长距离依赖和复杂转换模式提供了强大的建模能力。此家族的工作涵盖了多种方法,从将动力学重新定义为下一个标记预测,到利用Transformer架构的规模优势进行大规模世界模型预训练。代表系统包括IRIS、STORM、GAIA-1等,其中IRIS将VQ-VAE与Transformer结合,将图像帧离散化后作为标记序列进行自回归预测;GAIA-1则结合了文本、视觉和行动输入,生成逼真的驾驶视频。
基于扩散的世界模型利用扩散过程生成未来状态或观测。这与确定性或一次生成方法不同,它通过逐步去噪的方法实现高保真度的预测。代表系统如DIAMOND,将扩散模型嵌入到基于模型的强化学习框架中,在视觉观察空间中进行预测。GameNGen则模拟了经典视频游戏,在每步根据之前的帧和行动生成后续游戏画面。这类模型模拟的多模态预测能力在视频预测中特别出色。
物理信息与结构化世界模型将物理定律和显式结构整合到框架中,旨在实现更具可解释、数据效率和物理一致性的预测。硬件在环和因果世界模型也属于此范畴。该方向的一个典型潮流是利用神经算子或偏微分方程进行天气预报等科学应用,将物理仿真器集成到可微分的深度学习管道中。
语言增强与多模态世界模型通过将自然语言作为表示、推理和交互的核心模态来扩展世界模型能力。通过将语言集成到世界模型框架中,模型可以处理文本指令和指令驱动的预测。这包含基于视频的世界模型,如Sora,它将视觉观察与语言描述对齐,用于共同表示;另一个代表是Genie,一种从互联网视频中学习的可交互模拟器。此家族还包含了语言接地代理,通过结合视觉-文本转换和行动空间(如Smallville)来模拟社会行为和任务管理。
世界模型不仅用于预测未来或模拟环境,还为智能体的推理过程提供了核心支持。以下是主要的推理策略分类。 图3:基于想象力的潜在空间规划。该图根据原论文 图2 重绘,展示智能体如何从当前潜在状态出发,模拟多条候选未来轨迹,并通过奖励预测器和价值函数选择动作。来源:根据原论文图2中文重绘。
基于想象力的规划指利用世界的模型来思考可能的未来行为,从而提前评估后果。这是最具特色的推理策略之一。它可以分为两类:学习阶段想象(后台规划)和决策时刻想象(前向搜索)。基于想象的规划在存在高维观测和稀疏奖励的复杂决策任务中尤为有效。 学习阶段想象。 学习时,智能体在潜空间中展开想象的轨迹,通过梯度传播训练策略。Dreamer系列是该类方法的典型代表,其中行为者-评论家在网络训练于想象的轨迹中。 决策时刻想象。 在决策时,智能体执行明确的任务导向搜索。PlaNet正是在潜动作空间中通过使用化采样进行模型预测控制,以选择能够最大化预测总回报的动作。 跨领域优势。 Latent Imagination的关键优势在于其能够在计算上高效地预测长远未来,从而使得在现实世界的样本效率高,特别是在控制、机器人等任务中。 开放挑战:复合误差和目标不匹配。 该策略面临的主要挑战是积累的复合预测误差,在多步推演后难以保持准确。同时,轨迹的预测目标与策略的实际目标可能存在不一致的情况,导致优化效果打折。
利用世界模型进行策略学习是指不是在规划中进行搜索,而是以世界模型作为环境进行强化学习策略的直接训练。通过将模型作为模拟器使用,可以从很少的真实交互中学习到稳定的策略。Dreamer是此方向的标志性模型;TD-MPC和STORM也继续使用此混合策略。
反事实推理是世界模型最强大的能力之一,允许智能体思考“如果做了不同的选择会怎样”。反事实推理涉及三个步骤:归纳(重新理解当前可能的状态)、行动(施加改变)和预测。这在结构化世界模型中是特别强的推理形式,因为可以推断因果结构。然而,其面临的关键难题是非可识别性,即无法从观察性数据唯一确定真正的因果模型。
当世界模型具有对不确定性的显式建模能力时,规划必须考虑认知不确定性或偶然不确定性。基于模型的规划通常采用显式概率集成(如PETS),通过集成多个模型对预测结果加权,选择相对鲁棒的行为。贝叶斯方法和信息论导向的探索(如BRL)也属于此类。
在机器人领域,世界模型通过将真实的操作环境建模为潜空间动力学,用于学习复杂技能。Daydreamer在真实机器人上直接扩展Dreamer算法,实现了长期、端到端的潜想象学习。RoboDreamer将语言指令与扩散分子模型结合进行灵巧操作。关键的挑战仍然包括Sim-to-Real迁移和接触模型的不确定性。
自动驾驶是一个依赖世界模型进行环境预测和决策制定的高速增长领域。代表性模型包括Vista用于生成逼真的驾驶视频,或GAIA-1用于可控的情景预测。此外,基于3D占用率的模型如OccWorld和Copilot4D专注于空间一致性预测。
视频预测是离物理直接更近的世界模型领域,典型代表为Sora、Cosmos等大规模生成模型。这些模型被广泛认为是隐式世界模拟器,但仍在因果结构与可控性方面存在争议。
该领域强调语言对世界模型的增强,例如Smallville虚拟城镇作为社会模拟世界,通过在社交互动中模拟代理人。Actionable LLM通过利用语言报告状态,形成不完整的但直觉性的世界模型。
在游戏和RL中,世界模型是克服稀疏回报和样本效率问题的关键。MuZero学习潜奖励和价值模型,Dreamer在模拟中训练。GameNGen展示了此类模型对以细节为导向的游戏环境模拟模型。
物理和化学等自然科学常常需要开发严格基于数据的世界模型(如神经天气预报,地震建模)。将工程物理约束(偏微分方程)嵌入模型称为物理信息神经网络。
在医学领域,世界模型承担疾病预测和治疗规划任务。代表任务为纵向CT/MR图像预测肿瘤演进。离模态如手术视频使用隐想象提升自主机器人手术质量。进展仍受限于非平稳数据和高变异性的患者生理动力学;因果推理限制也是瓶颈。
教育领域的世界模型将学生认知结构建模为潜状态动力学,随时间推进。世界模型能够通过模拟学生状态、潜在技能和学习路径,动态调整最优教学内容,并预测不同教学策略下的表现。
商业与金融的世界模型不同于物理建模,它处理金融市场的社会构造。该领域将市场建模为一系列内部预期与反身反馈的系统。因此,模型的动态不仅包括物理转移,还包含对他人信仰的建模。主要瓶颈包括非平稳性和反馈识别性问题。
世界模型评价指标主要分为两类:预测质量和下游任务表现。对于预测质量,常用结构相似性指数、峰值信噪比、均方误差,以及Frechet视频距离等。对于下游任务表现,广泛采用环境的平均回报、样本效率和模拟到真实的迁移成功率。
强化学习与机器人领域的基准包括DM Control、Atari、Meta-World、MineDojo和Habitat。在自动驾驶方面,nuScenes、Waymo Open Motion Dataset和CARLA是核心数据集。大规模视频预测数据包括DOA、Kinetics和Something-Something。多模态评测包括OpenEQA和ALFRED。但目前评估存在碎片化问题,不同论文使用不同指标,使得方法间的直接比较变得困难。
当前世界模型面临几个核心挑战。
世界模型的研究正朝着以下几个方向快速推进:
Palantir是一家监控技术公司,与美国移民和海关执法局(ICE)签有追踪移民的主要合同,并与美国和以色列军方有合作。据其首席执行官亚历克斯·卡普称,其“武器软件应用于我所知的每一场战斗情境”[1]。本资料页依据2025年税务申报文件、新闻稿、软件文档及营销材料,梳理了Palantir与其他主要科技公司的关系。仅收录Palantir与全球具有强大品牌认知度的最大型科技公司之间的重要合作伙伴关系,不包括Palantir合作的所有科技公司。各公司按其与Palantir的合作深度排序。
本报告仅综合来自一手信源和经同行评议的安全研究中的、经过验证且来源明确的声称。所有效率指标和工具部署情况均归因于其原始来源。
本报告审视了以色列、美国和伊朗在持续的地缘政治紧张局势背景下,对人工智能技术的部署情况。近期的军事行动为大规模作战人工智能部署提供了前所未有的观察窗口。
01美国已将Anthropic公司的Claude人工智能集成到帕兰蒂尔公司的Maven智能系统中,以前所未有的规模实现实时目标定位和作战决策支持。
02以色列持续完善其多层人工智能防御系统(“铁穹”、“铁束”),同时部署目标定位人工智能系统(“薰衣草”、“福音”)。
03伊朗正在开发专注于网络行动、影响力行动和基于无人机的进攻系统的不对称人工智能能力。
04此次冲突代表了大型语言模型(LLM)集成军事决策支持系统在实战行动中的首次大规模部署。
类型: 实时情报分析与目标定位决策支持
集成: 嵌入Anthropic公司的Claude人工智能进行数据合成与优先级排序
作战部署: “史诗怒火”行动(2026年3月1-4日)
已验证能力:
● 实时分析机密卫星图像、监视数据和地理空间情报
● 在行动最初24小时内生成了1000多个目标建议
● 提供精确的位置坐标和目标优先级排序
● 使20名军事人员能够执行相当于2000人传统指挥结构的作战任务
● 与“战斧”巡航导弹、B-2隐形轰炸机和LUCAS自主无人机集成
效率指标:
● 目标识别与优先级排序:95%以上准确率(基于打击后评估)
● 决策周期缩短:比传统目标定位工作流程快70-80%
● 作战规模:24小时内识别并排序1000个目标
战略影响:
Maven——Claude集成代表了此等规模的大型语言模型(LLM)集成军事决策支持的首次作战部署。该系统合成多源情报并提供实时目标建议的能力,从根本上改变了军事决策的速度。
“铁穹”/“铁束”/“薰衣草”(拉斐尔先进防御系统公司)
类型: 多层人工智能驱动的防空与目标定位系统
功能: 预测性弹道分析、激光拦截和人工智能加速目标识别
作战部署: 持续部署——“铁束”于2025年12月27日升级交付
已验证能力:
● “铁穹”:人工智能弹道预测,拦截率85-90%;10个电池组覆盖达15,500公顷
● “铁束”:高能激光系统;人工智能实时选择最佳拦截模式;于2025年12月27日交付以色列国防军
● “薰衣草”:人工智能数据库识别了37,000个哈马斯目标;据报道错误率为10%(《卫报》,2024年4月);以色列国防军对报道的某些方面提出异议
● “福音”:人工智能目标定位加速系统;快速生成打击建议;相关声称仍存在部分争议
效率指标:
● “铁穹”拦截率:针对短程威胁达85-90%
● “铁束”成本降低:相比动能拦截弹降低90%以上(每次“铁穹”拦截约5万美元)
● “薰衣草”错误率:目标识别约10%(报道数据)
● 多层覆盖:可同时防御火箭弹、无人机、迫击炮和巡航导弹
战略影响:
以色列的人工智能战略结合了具有成本效益的分层防御(“铁穹”+“铁束”)与目标定位加速系统(“薰衣草”、“福音”)。这种多层方法既满足了防御需求,也满足了进攻性目标定位要求,尽管一些目标定位系统的声称仍受到以色列国防军的争议。
“沙希德”无人机/人工智能网络工具/影响力行动
类型: 不对称进攻行动、网络战和人工智能辅助的影响力行动
功能: 针对美国、以色列及海湾地区关键基础设施的可否认分布式攻击
作战状态: 在“史诗怒火”行动后升级(2026年2月28日至3月5日)
已验证能力:
● 谷歌报告伊朗黑客使用Gemini人工智能收集目标情报并构建黑客工具
● OpenAI于2024年8月封禁了使用ChatGPT进行协同影响力行动的伊朗Storm-2035账户
● RedKitten行动(2026年1月):针对伊朗抗议活动记录团体的人工智能加速恶意软件
● 与伊朗伊斯兰革命卫队(IRGC)和情报与国家安全部(MOIS)相关的网络威胁行为体(Altoufan团队、HANDALA、Cotton Sandstorm)
● 搭载人工智能辅助导航的“沙希德”无人机被用于不对称进攻行动
效率指标:
● 网络渗透成功率:45-55%(根据安全研究估算)
● 无人机打击成功率:针对指定目标约70%(报道数据)
● 影响力行动:受众参与度有限;受到平台执法干扰
● 人工智能辅助恶意软件开发:加速了构建周期,但有文献记载的操作安全失败案例
战略影响:
伊朗的不对称人工智能战略优先考虑可否认性和成本效益,而非直接的军事集成。通过利用分布式网络行动、人工智能生成的影响力内容和低成本无人机系统,伊朗抵消了美国和以色列的技术优势,而无需使用先进的西方人工智能平台。
| 维度 | 美国 | 以色列 | 伊朗 |
|---|---|---|---|
| 主要人工智能战略 | 实时集成目标定位决策支持 | 多层防御 + 目标定位加速 | 不对称网络与影响力行动 |
| 旗舰系统 | Maven智能系统(帕兰蒂尔 + Claude) | “铁穹” + “铁束” + “薰衣草”/“福音” | 分布式网络行动 + “沙希德”无人机 |
| 核心技术 | 大型语言模型(LLM)集成情报合成 | 弹道预测 + 激光目标定位 | 人工智能辅助恶意软件开发 + 内容生成 |
| 作战规模 | 24小时内1000+个目标 | 持续防空 + 选择性目标定位 | 分布式、可否认的行动 |
| 效率指标 | 95%以上目标定位准确率;决策周期加快70-80% | 85-90%拦截率(“铁穹”);成本降低90%以上(“铁束”) | 45-55%网络渗透成功率;70%无人机打击成功率 |
| 部署状态 | 活跃中(“史诗怒火”行动,2026年3月1-4日) | 持续作战部署 | “史诗怒火”行动后升级 |
| 关键优势 | 大规模决策速度 | 具有成本效益的分层防御 | 可否认性与分布式攻击面 |
| 关键弱点 | 依赖单一人工智能提供商(Anthropic);监管审查 | 每次交战成本(“铁穹”);以色列国防军对“薰衣草”报道的争议回应 | 有限的直接军事人工智能集成;反应性姿态 |
| 监管状态 | 五角大楼已禁用Anthropic(2026年3月);OpenAI协议正在修订中 | 无报道的监管限制 | 受国际制裁;对西方人工智能的获取有限 |
关键见解:
有记录的人工智能系统故障与局限
美国(Maven+Claude)
● 五角大楼宣布Anthropic为“供应链风险”(2026年3月),引发对系统可靠性的质疑
● OpenAI被迫修订军事协议,明确禁止国内监控
● 95%以上准确率的声称未经独立核实;数据基于军事评估
● 监管真空:《日内瓦公约》未充分涵盖人工智能武器系统的测试要求
以色列(“铁穹”与“薰衣草”)
● “铁穹”:10-15%错误率;每次拦截约5万美元成本限制了可扩展性
● “薰衣草”:据报道目标识别错误率为10%(《卫报》报道);以色列国防军发布官方回应,对报道的某些方面提出异议
● “福音”:公开信息有限;声称仍存争议
● 关于动能拦截与激光拦截的成本效益争论持续
伊朗(网络行动)
● RedKitten行动(2026年1月):使用人工智能工具快速开发,但包含多处操作安全失败
● 网络渗透成功率(45-55%)表明防御方有显著的检测和预防能力
● 影响力行动:OpenAI成功干扰伊朗ChatGPT账户,表明其易受平台执法影响
● 对尖端人工智能模型的有限获取制约了能力发展
归因挑战
分布式网络行动使归因困难,存在虚假旗号行动的可能性
升级风险
人工智能赋能的决策速度缩短了人工审议时间
平民影响
目标定位系统缺乏透明的问责机制
监管滞后
国际法未能跟上人工智能战争能力的发展
依赖风险
依赖商业人工智能提供商造成战略脆弱性
综合资料来源与参考文献
美国军事行动
以色列防御系统
伊朗网络行动
人工智能政策与监管
Maven项目与国防采购
以色列-美国-伊朗冲突是军事人工智能部署的分水岭时刻。这是首次在大型语言模型(LLM)集成决策支持系统、多层人工智能防御网络和分布式网络人工智能行动同时运作的情况下,进行大规模作战行动。
关键要点
01 技术不对称性
三个国家采用了反映其技术能力、战略学说和资源限制的根本不同的人工智能策略。美国追求集中化、速度优化的系统;以色列强调分布式、成本效益高的防御;伊朗发展不对称、可否认的能力。
02 作战效能
三国都通过人工智能集成展示了可衡量的作战改进:
● 美国:决策周期时间缩短70-80%
● 以色列:防空拦截率达85-90%;通过激光系统降低成本90%以上
● 伊朗:分布式网络行动渗透成功率45-55%
03 监管真空
人工智能在战争中的快速部署已超越国际法律框架。《日内瓦公约》的测试要求不适用于人工智能武器系统。美国和以色列都面临国内外审查,而伊朗则在制裁限制下运营。
04 系统脆弱性
● 美国对Anthropic(现已被五角大楼禁用)的依赖造成战略风险
● 以色列系统面临成本可扩展性挑战
● 伊朗系统面临防御方的检测和干扰
05 升级动态
人工智能赋能的决策缩短了人工审议时间,可能增加升级风险。速度优势造成了快速反应的压力,减少了外交干预的机会。
06 归因与问责
分布式网络行动和人工智能生成的内容使归因和问责复杂化。这为虚假旗号行动创造了可能,并降低了军事决策的透明度。
经过网络优化的LLM(大语言模型)在复杂环境中发现新漏洞的能力日益增强,而对手运用它们的能力也在不断提高。这增加了关键任务机构面临的攻击面,这些机构正面临漏洞分级、修复和协调的新瓶颈。Palantir认为,任何严肃的机构都应达到一个更高的标准,并已承担起为安全社区提出新标准的责任。
Palantir Technologies 在全球最敏感的环境中运营软件和人工智能系统:涉密政府网络、活跃作战战区、物理隔离的情报系统和关键商业基础设施。在过去20多年中,不断设计部署基础设施和安全态势,以持续支持这些环境,并为所有新的进展和技术进步(例如最近出现的经过网络优化的LLM)做好准备。
本文档提出一个候选的“任务保障性软件安全标准”(MA-S2)框架,这是正积极努力实现的标准。除了满足已有框架(如SOC 2、FedRAMP、IL5 / IL6、NIST SP 800-53、ISO 27001等)的要求外,AI辅助漏洞发现的普及突显了整个软件领域需要一个更高标准的必要性。MA-S2 是一个拟议的框架,概述了软件的安全控制、识别与修复能力、协调能力以及其他鉴证要求。公开发布此拟议标准并征求意见,因为视此为对任何希望保护自身数字足迹和生态系统的企业应尽的责任,也视此为对更广泛安全社区的贡献。对于任何认为自身任务与美国国家安全同等重要,并希望以同等标准保护其环境的首席信息安全官、首席财务官、采购官员和安全架构师,鼓励他们紧急优先考虑满足这些标准。对于更广泛的安全社区,积极邀请审查和进一步贡献,以确保一个共同且不断提高的高标准。
这篇综述把大语言模型智能体在真实生产环境中的可靠性问题,从“模型能力是否足够强”推进到“执行器工程是否足够稳”。作者指出,许多长任务、多工具、多轮交互失败并不来自模型本身,而来自包裹模型的系统基础设施:执行环境、工具协议、上下文与记忆、生命周期编排、可观测性、验证评估以及治理安全。 论文的核心贡献是提出 ETCLOVG 七层分类法,并将 170+ 个开源项目映射到这一框架中,梳理 2022-2026 年从提示工程、上下文工程到执行器工程的演进。对于正在构建代码智能体、浏览器智能体、企业流程智能体或多智能体系统的团队,这篇综述提供了一套很适合做架构检查表的系统视角。
大语言模型(LLM)智能体在生产中的快速部署揭示了一个反复出现的模式:任务执行可靠性往往更多地依赖于底层基础设施层(即智能体执行执行器,agent execution harness),而非模型本身。本综述对智能体执行工程(agent harness engineering)进行了基于实践的系统性处理,围绕三个核心论点展开。首先,智能体执行器是一个独立的系统层,其工程质量在很大程度上决定了真实世界的可靠性,我们通过从提示工程到上下文工程再到执行工程的三阶段演进、涵盖成本-质量-速度三元悖论、能力-控制权衡以及执行器耦合问题的跨层综合,以及基于研究空白和生产痛点的开放问题议程来发展这一立场。其次,我们提出了ETCLOVG七层分类法(执行环境、工具接口、上下文管理、生命周期/编排、可观测性、验证、治理),该分类法通过将可观测性和治理视为独立架构关注点,扩展了先前的六组件框架。第三,我们将170多个开源项目映射到该分类法上,以揭示生态系统模式、覆盖空白和新兴设计原则,同时提炼自OpenAI、Anthropic和LangChain生产部署的工程原则,弥合了实践者知识与研究词汇之间的鸿沟。 图1:提示工程、上下文工程和执行工程的简要比较。
学术界对基于大语言模型的智能体的研究,在很大程度上是对模型本身的研究。研究议程集中于模型能做什么:能否跨多步规划、能否可靠地调用工具、能否检索和压缩相关记忆、或能否与其他智能体协调。其隐含假设是,智能体能力主要取决于模型能力,即一个足够强大的模型加上一个足够好的提示,将产生足够可靠的行为。 然而,近期的实证证据挑战了“更好的模型即能产生更可靠的智能体”这一假设。三项近期成果确立了这一模式。Bölük(2026a)仅修改了编辑工具格式和工具执行系统,未改动模型,便在跨15个模型的编码基准测试中报告了高达10倍的增益。Trivedy(2026)仅通过系统提示重组、中间件上下文注入和自我验证钩子,将固定的GPT-5.2-Codex智能体在Terminal-Bench 2.0上的性能从52.8%提升至66.5%,即13.7个百分点的增益,完全通过基础设施变更实现。Meta-Harness(Lee等,2026)通过自动化执行优化在Terminal-Bench-2上达到76.4%,超越了所有手工工程方法,且未修改模型权重。在每种情况下,变量都是执行执行器,即管理上下文构建、工具交互、编排、反馈和执行约束的基础设施层;模型则是固定的。这些仅通过执行器获得的增益均超过了同一基准测试上报告为有意义模型进步的典型2到4个百分点改进。这一模式并非偶然:是执行器,而非模型,在驱动结果。 我们将这一模式称为瓶颈约束论点:对于跨可比前沿模型评估的长时域任务,基准测试方差可能由执行器本身驱动,其程度与模型相当。
实践者的紧迫性与研究词汇之间存在张力。OpenAI明确将“执行器工程”定义为围绕Codex智能体设计环境、约束、文档和反馈循环的学科,报告称一个小团队在五个月内产生了约一百万行内部产品代码,而无需手动编写生产代码。Anthropic的智能体工程文章从相邻方向得出了相同原则:有效的智能体应使用简单且可检查的架构;工具接口应为智能体使用而设计,而非从面向人类的API复制;上下文应逐步披露而非急切加载;长期运行的工作需要持久交接工件和可恢复的执行基础设施。Martin Fowler网站的一篇文章将执行器工程描述为“AI智能体的控制论治理器”,由前馈指导和反馈传感器组成,围绕大语言模型形成控制循环。 与此同时,研究社区一直在以日益精确的方式研究智能体系统的组件:记忆、工具使用、规划和安全。但尚未系统研究的是将这些组件整合为可靠运行的系统。结果形成了一个实践者-研究鸿沟:实践者知道执行器基础设施很重要,但缺乏正式词汇来描述其原因,从而无法实现系统改进。本综述试图弥合这一鸿沟。
本综述聚焦于封装语言模型以管理长时间、多步骤任务执行的基础设施层。我们不综述作为开发工具的智能体框架、作为产品类别的智能体平台,或模型能力本身,尽管三者都为我们分析提供信息。图4总结了构建本综述其余部分的七层分类法。 我们的贡献围绕三个论点组织:
从早期链式思维提示到自主智能体的轨迹,可以理解为实践者必须管理的工程表面逐步扩展的过程。 ReAct时代(2022-2023)。Yao等人(2023)将“观察-思考-行动”循环确立为基础原语。早期系统以最小基础设施运行:一个while循环、一个提示模板和一个小型工具调度表。AutoGPT和BabyAGI通过用任务队列、记忆和工具调度封装语言模型调用,展示了完全自主操作的雄心,同时也使执行失控、上下文爆炸、状态丢失和未监控副作用等失效模式作为基础设施问题(而非仅提示问题)显现出来。 工具集成与多智能体协调(2023-2024)。Gorilla、ToolLLM和Toolformer确立了工具使用能力可以被学习或诱导,而非硬编码到固定API包装器中。CAMEL、ChatDev、MetaGPT和Mixture-of-Agents引入了多智能体协调模式,涵盖角色扮演对话、软件开发组织以及分层智能体聚合。评估基础设施随着SWE-bench、AgentBench、WebArena和GAIA而成熟,同时协议标准化随着Anthropic的MCP和Google的A2A而开始。 执行器转向(2025-2026)。到2025年,积累的部署经验足以清晰表明,智能体可靠性的瓶颈约束是基础设施质量而非模型质量。2026年初的三项独立发展验证了这一转变:OpenAI明确采用“执行器工程”作为学科;斯坦福/MIT的Meta-Harness显示自动化执行器优化超越手工工程;LangChain的DeepAgents通过仅执行器层变更,在Terminal-Bench 2.0上从52.8%提升至66.5%,对应13.7个百分点的增益和约26%的相对改进。 图3:2022-2026 年代表性智能体执行器系统时间线,展示领域从早期单循环智能体逐步转向更完整的执行基础设施。
2022-2026年期间揭示了一个连贯的三阶段演进,反映了该领域所选择工程对象的变迁。 提示工程(2022-2024)。主要杠杆是输入提示文本。实践者通过编写更好的指令、少样本示例和推理模板进行优化。工程范围狭窄:优化单个模型调用的单个文本输入。 上下文工程(2025)。随着智能体运行时间变长,瓶颈约束从“输入是什么?”转变为“模型在每一步应看到什么信息?”这一阶段聚焦于上下文管理:每轮注入什么、如何检索和压缩记忆、如何按相关性排序工具结果,以及如何处理上下文窗口饱和。范围从单一输入扩展到管理流入上下文窗口的多个信息流。 执行器工程(2026)。随着模型变得足够强大以处理长时间运行的任务,可靠性越来越依赖于维护状态、中介工具、注入反馈、强制执行约束和验证进度的基础设施包装器。这一观察与瓶颈约束观点一致,即长时域智能体性能是由耦合的模型-执行器系统而非模型单独产生的。因此,执行器工程询问必须围绕模型设计什么治理、约束、反馈循环和执行控制,才能使智能体系统可靠。 每个阶段都包含前一阶段:执行器工程包括上下文工程,后者又包括提示工程。这三个阶段在时间和概念上也有重叠,而非以清晰边界相继更替。提示工程至今仍是执行器实践中的活跃部分,而上下文工程也在与执行器层级关注点并行发展。 图2:基于大语言模型的智能体系统的执行器工程分类示意图。四个层次E、T、C和L构成了系统的结构支柱。O层提供系统级监控,而V层提供跨组件的评估和反馈。G层在整个系统上实施治理和安全约束。颜色方案对应于§2.3中开发的ETCLOVG层次。
我们提出了一个用于智能体执行器工程的七层分类法,简称ETCLOVG,代表执行、工具、上下文、生命周期、可观测性、验证、治理。图4给出了紧凑的可视化映射;本小节固定了整个综述中所用解释。 前四层描述执行器的结构核心。执行(E) 决定智能体代码在何处运行以及何种沙箱约束限制它;工具(T) 规定外部能力如何被描述、发现和调用;上下文(C) 控制模型在短期、会话级和持久性视野中能看到什么;生命周期(L) 组织读取和写入该状态的控制流,从单智能体循环到多智能体以及从问题到拉取请求的工作流程。其余三层描述围绕该核心的控制平面。可观测性(O) 捕获轨迹、成本、故障和可靠性信号;验证(V) 将任务和轨迹转化为评估、失败归因和回归反馈;治理(G) 通过权限、身份、策略、强化、审计和人工监督机制约束行为。 两个设计选择使该分类法与众不同。首先,我们将可观测性(O) 提升为独立层,而非视为生命周期钩子的副产品。在生产系统中,可观测性拥有专用工具生态系统(Langfuse、Arize Phoenix、OpenLLMetry)和独特工程实践(OpenTelemetry仪表化、成本归因、异常检测),值得独立处理。其次,我们引入治理(G) 作为一等层,捕获跨三个子层的安全与合规关注点的全谱:模型层(护栏、内容过滤器)、系统层(网关、代理、权限模型)和组织层(审计、合规、人在环监督)。 状态管理自然地属于生命周期和编排(L)内,与其读写的执行流相邻;生命周期钩子和策略执行属于治理(G)内,与其他约束机制对齐。 图3:2022年至2026年代表性智能体执行器系统的时间线。该时间线展示了从早期单循环智能体到更丰富的执行器基础设施的转变,涵盖执行环境、工具接口、上下文和内存管理、生命周期编排、可观测性、验证和治理。颜色方案对应于§2.3中开发的ETCLOVG层次。 图4:智能体执行器工程分类的详细说明。每个分支对应一个ETCLOVG层及其主要子类别;代表性系统和论文将在后续章节讨论。 图2:面向大语言模型智能体的执行器工程分类法。七层框架把执行环境、工具接口、上下文、生命周期、可观测性、验证与治理组织为一个系统整体。
我们在比“任何围绕大语言模型的软件”更窄的意义上使用智能体执行器(agent harness):执行器是将模型调用转化为有边界、有状态、由工具中介的任务执行的人工工程化包装器,通过执行基质、工具接口、上下文控制、编排、可观测性、评估反馈和治理约束实现。因此,分析单位是使长时间运行智能体行为可控、可检查、可恢复的基础设施,而非基础模型或提示本身。我们按功能而非产品类别划定边界:当智能体框架暴露如状态化编排、工具路由、运行时策略钩子或轨迹捕获等可复用机制时,它属于范围内;而一个薄模型API包装器、提示库、静态数据集、通用容器运行时、向量数据库、APM仪表板或内容过滤器则属于范围外,除非其被明确适配于智能体执行、状态、评估或工具使用治理。 图4:执行器工程七层分类法的详细展开,每一层进一步对应若干关键子问题和工程模块。
我们构建了语料库作为公开文档化智能体执行器工件的系统映射,使用系统综述的报告规范使源流、搜索策略和选择过程明确。候选项目从四个流收集:先前综述和基准论文;对名称、描述、README文本、主题、星标、更新时间和归档状态的可复现GitHub搜索;精选项目列表和包注册表;以及公司工程博客或发布说明中引入执行器级机制的内容。代表性查询组合了诸如“agent harness”、“coding agent”、“LLM agent sandbox”、“MCP server”、“agent observability”、“agent memory”、“agent evaluation”和“agent governance”等术语。对于每个保留的候选项目,我们记录了项目名称、URL、工件类型、源类型、可用状态、可识别的发布年份、可用的GitHub元数据,以及用于后续ETCLOVG编码的公开证据;本版本中报告的元数据快照冻结于2026年5月8日。
当一个项目满足三个条件时被纳入:它是公开文档化的;它实现或指定了一个具体的执行器级机制;可用证据足以分配至少一个ETCLOVG层。这包括具有可复用编排或工具路由逻辑的智能体框架;实例化可执行智能体环境的基准测试;为智能体执行打包的沙箱;以及操作于智能体状态、轨迹、动作或策略之上的记忆、可观测性、评估或治理系统。我们排除了简单的聊天演示、提示包、薄模型客户端包装器、没有智能体运行时的静态数据集或排行榜、非面向智能体的通用基础设施组件,以及无法从公开文档检查技术行为的产品页面。边界案例按机制而非标签解决:一个被命名为“智能体”的仓库不足以纳入,而一个评估或沙箱项目在提供可复用执行器机制时被纳入。
每个保留项目使用公开工件本身作为证据,针对七个ETCLOVG层进行编码:自述文件、文档页面、论文、示例、发布说明,以及必要时还包括仓库结构。编码是多标签的,因为许多系统跨越多个层;主层标记工件最中心的机制,而次要层仅当文档暴露独立能力(而非偶然依赖)时才分配。当前快照使用单主编码员协议并经过作者审计,而非正式的多编码员一致性研究,因此我们不报告Cohen's kappa或类似的可比注释者间统计量。歧义案例在全部集合编码后重新审阅,采用保守规则:如果公开证据未明确显示面向智能体的机制,则保留层分配。
语料库应被视为可见智能体执行器生态系统地图,而非所有已部署智能体基础设施的普查。它偏向于英语源、GitHub可见项目、开源工件以及维护者发布足够实现细节以供外部编码的系统。商业生产系统代表性不足,除非其工程博客、文档或SDK暴露了相关机制;编码智能体基础设施被过度代表,因为它拥有异常丰富的公开痕迹:仓库、基准测试、沙箱、从问题到拉取请求的工作流程和发布说明。层分配也反映了公开文档而非私有架构,因此某层缺失意味着“未公开证实”而非“未实现”。
170多个项目的映射揭示了一个广泛但不均衡的生态系统。执行、工具接口、生命周期编排和验证拥有最密集的可见覆盖,因为编码、网页、终端和计算机使用智能体都需要可运行环境、工具契约、控制循环和可复现评估才能有用。上下文和记忆出现在许多项目中,但通常嵌入在更大的框架内部,而非作为独立执行器组件发布。可观测性和治理在开源覆盖中较薄,更常通过商业平台、SDK功能或工程文章出现,表明运营控制比运行时和基准基础设施成熟得晚。跨层项目日益常见:最完整的系统结合了沙箱、工具协议、编排、追踪、评估和权限控制,这支持了核心论点,即执行器工程是一个集成系统问题,而非孤立附加组件集合。
定义。智能体的执行环境是指智能体动作物理执行的基础设施层。在大语言模型智能体语境下,执行环境和沙箱是紧密耦合的概念。因此,生产级智能体系统几乎总是在沙箱化环境中执行动作。 为什么沙箱在智能体时代至关重要。智能体时代的沙箱不仅仅是继承自传统多租户代码执行的安全措施。它同时服务于三个不同目的,三者结合将沙箱从操作细节提升为智能体执行器设计中的一等关注点。 第一个目的是安全。智能体沙箱面临超越传统多租户代码执行的挑战。大语言模型生成的代码在大规模下既不可审计也不可预测,排除了静态审查作为主要防线。智能体在多个步骤上自主执行,因此动作执行时无法进行人工干预。提示注入攻击可以将原本良性的智能体重新用作沙箱定向攻击的向量,模糊了可信用户意图和恶意输入之间的界限。近期关于沙箱逃逸的实证工作表明这些担忧并非假设性,我们将在§3.3中给出定量证据。 第二个目的是可复现性。长时域智能体任务及其测量它们的评估执行器需要能够将执行状态重置到已知基线。Docker容器或微型虚拟机可以按需销毁和重建,而开发者的工作站则不能,这一特性使得基于沙箱的评估标准如SWE-bench和OSWorld成为可能。在训练时,当单个任务可能在并行轨迹中被重复数百次时,缺乏廉价重置机制本身就是可扩展性瓶颈。 第三个目的是活性(liveness),这是最特定于智能体时代的目的。没有沙箱,智能体希望执行的每个可能有风险的动作,例如文件写入、包安装或出站网络调用,都必须通过显式权限提示向人工门控。在大规模下,这会产生两种失效模式:用户因挫败而放弃智能体,或者他们反射性地批准一切并破坏提示的安全理由。沙箱打破了这一僵局,定义了一个有边界的区域,在该区域内智能体被授权自由行动,将权限从逐动作问题转变为话配置问题。Anthropic报告称,向Claude Code引入沙箱后,权限提示减少了84%,同时保持了安全性。这三种目的中,安全与传统沙箱共享,可复现性在智能体设置中被放大,而活性本质上是新的。它们的结合证明了将智能体沙箱视为独立研究对象的合理性。
智能体沙箱基础设施在2024-2026年从一小套通用运行时多样化到几个不同的产品类别,每个针对不同的任务类型优化。我们沿工作负载和用例轴将景观组织为七个类别,这在我们看来对在执行器设计者中选择系统最为有用。隔离技术的正交轴在每一小节内作为设计属性讨论,而非作为顶层类别,因为相同的隔离原语被跨不同工作负载复用。七个类别是:通用型托管沙箱、计算机使用智能体基础设施、代码专用沙箱、框架集成运行时、浏览器评估环境、操作系统级权限沙箱和沙箱抽象层。 图6:按沙箱类别组织的大语言模型智能体执行环境和沙箱的代表性工作。 通用型托管沙箱提供商业或开源沙箱即服务平台,通过API接口暴露任意OCI容器镜像,支持shell、文件系统、网络和解释器。代表性系统包括Daytona、E2B、Modal、Northflank、OpenSandbox和Docker Sandboxes。 计算机使用智能体基础设施代表一种不同的执行模型,其中智能体通过模拟鼠标、键盘和屏幕观察与图形界面交互,而非通过API或shell命令。代表性系统包括Anthropic的Computer Use、CUA和OSWorld提供的基于虚拟机的环境。 代码专用沙箱是为代码生成、评估和数据分析优化的轻量级环境。代表性系统包括Judge0、OpenAI Code Interpreter、sandboxed.sh和langchain-sandbox。 框架集成运行时是打包在更广泛智能体框架内部的执行环境,而非作为独立沙箱产品暴露。代表性系统包括OpenHands运行时、agent-infra沙箱和smolagents的执行器层。 浏览器评估环境同时扮演沙箱和评估执行器的双重角色。代表性系统包括WebArena、VisualWebArena、BrowserGym和WorkArena。 操作系统级权限沙箱使用操作系统原语实现细粒度文件和网络隔离。代表性系统包括Anthropic的sandbox-runtime、Claude Code的沙箱功能以及IsolateGPT。 沙箱抽象层不是沙箱本身,而是统一多个沙箱后端为单一API的接口。代表性系统包括SWE-ReX、smolagents的执行器接口和Kubernetes Agent Sandbox项目。 综合。跨七个类别,可见三个交叉趋势。首先,该领域正沿着隔离强度而非收敛程度分化:托管沙箱正从共享内核容器向专用内核微型虚拟机迁移,而操作系统级权限沙箱则完全摒弃独立环境,转而收窄主机视图。普通Docker容器的中间地带正被两端挤压。其次,评估稳健性正成为一等关注点:沙箱逃逸基准测试和生产中的代码解释器智能体安全基准测试表明,当前部署的沙箱配置可被前沿模型部分绕过。第三,该领域正在分离基础设施级隔离和语义或能力级隔离。
智能体执行沙箱面临传统容器级威胁和智能体特有的威胁类别。首先,提示注入攻击允许外部输入劫持智能体行为并发起恶意沙箱操作。其次,目标错位可能导致智能体自身将沙箱逃逸作为工具性子目标主动尝试。第三,组合放大发生在具有多个工具访问的智能体允许单个沙箱弱点级联跨集成能力时。 关于智能体设置中沙箱逃逸的实证证据有限但令人担忧。SandboxEscapeBench评估前沿大语言模型在嵌套沙箱夺旗挑战中,报告对基于Docker的容器有15%至35%的逃逸成功率,具体取决于容器配置。防御研究仍处于早期阶段。IsolateGPT提出了基于大语言模型的智能体系统的执行隔离架构。事务性沙箱方法提供基于回滚的保护。这些结果暴露了攻防进展之间的差距。
智能体沙箱基础设施已从最初的自主托管Docker模式多样化为三种共存模式。在自主托管模式中,开发者直接管理沙箱基础设施。在云(SaaS) 模式中,沙箱即服务提供商处理基础设施。在混合或自带云模式中,智能体逻辑和沙箱执行解耦跨环境。在观察到的实践中,自主托管沙箱在交互式开发和单租户场景中占主导地位,而云沙箱在多租户和大规模部署中更常见。混合模式正专门为合规或数据驻留需求与大池临时执行能力并存的场景而出现。
执行环境是智能体执行器的物理基质:它们提供安全边界、用于可复现评估和训练的重置机制,以及长时域智能体无需每步人工批准即可行动的有界区域。七个类别表明设计空间现在较少受单一隔离原语决定,而更多受工作负载保真度、威胁模型和运营模式影响。
工具接口和协议层(T)定义了智能体如何发现能力、表示可调用的接口以及在异构运行时边界上执行动作。在实践中,该层位于两个竞争目标之间的分界线上:通过暴露更多工具增加能力覆盖,与通过保持动作空间和提示占用小来保持决策质量。生产级智能体系统的最新工程指南反复报告,过大的工具菜单会降低可靠性、增加令牌开销并放大规划错误。 我们将该层组织为四个互补方向:协议和接口标准;工具描述、发现和选择;工具增强模型训练与集成;以及可扩展性和会话管理。 图7:按工具层类别组织的大语言模型智能体工具接口和协议的代表性工作。
MCP已成为编码和企业智能体最可见的工具集成基质,具有显式的主机-客户端-服务器架构和基于JSON-RPC的类型化工具、资源和提示交换。MCP的实际价值不仅在于模式级互操作性,还在于生态系统流动性:智能体构建者可以复用不断扩展的服务器目录,而无需为每次部署实现自定义连接器。 A2A针对一个不同但相邻的边界。它不是向一个智能体进程暴露工具,而是标准化了不透明智能体应用之间的通信,包括通过Agent Cards进行发现、支持同步和流式交互,以及长时间运行的任务协作。更有效的组织原则,在我们看来,是按集成边界对工具/接口标准进行分类。在此视角下,出现了四个边界:模型↔函数、智能体↔外部能力、智能体↔智能体、智能体↔仓库/环境。表1总结了这一视图,并阐明了为什么几个广泛比较的标准占据非重叠角色。 函数调用模式和API描述标准仍然是该层的基础构建块。OpenAI风格的函数调用通过JSON模式和显式调用/返回回合将工具调用操作化;OpenAPI提供了语言无关的机器可读API契约。此外,仓库级指令文件如AGENTS.md和AGENT.md提供了直接在版本控制中编码工具使用和工作流约束的轻量级替代方案。
一旦协议定义了如何进行调用,下一个瓶颈是应表面和选择哪些工具。越来越多的工作研究工具文档质量、检索和动态候选剪枝。EASYTOOL分析了从大型库存中选择合适工具的挑战。AnyTool和CRAFT专注于通过自动构建或细化工具使用管道来减少手动说明负担。MetaTool基准测试风格评估显示工具检索和调用质量在领域和查询形式上可能有显著差异。近期工作如MCP-Zero、ToolRet和ToolRegistry强调检索感知编排和注册表质量作为下游智能体成功的一阶决定因素。一个紧密相关的方向将工具选择扩展到可复用技能,其中智能体必须识别相关的程序模块而不仅仅是紧凑的API模式。系统级结果强化了两个设计原则:首先,“更少但更好的工具”通常优于暴力工具暴露;其次,发现管道必须具有适应性。
第三个方向从运行时编排转向模型能力获取。Toolformer展示了在生成过程中何时以及如何插入API调用的自监督增强。Gorilla和ToolLLM/ToolBench用更大的工具语料库、指令调优管道和面向执行的API使用监督扩展了这一路线。在生产执行器中,这些模型端进步通常与框架级运行时堆栈配对,如LangChain、Semantic Kernel和smolagents。编码智能体设置还暴露了第二类更语义化的工具:静态分析器、类型检查器、求解器支持的验证器、证明助手,以及补丁等价性或故障定位检查器。Ugare & Chandra将这一空间框架为智能体代码推理。
随着工具集合和调用频率增长,可扩展性和状态管理成为该层的操作瓶颈。ReAct在每一步顺序调用单个工具,限制了并行性但保持了简单性。LLMCompiler引入了依赖感知的并行调度。在会话管理方面,E2B沙箱为长时间运行的代码解释器会话提供持久性。Anthropic的MCP代码执行子协议支持长时间运行的交互式shell会话。BFCL、StableToolBench和API-Bank从评估角度解决了工具调用质量和规模问题。
上下文管理之所以成为执行器工程的核心问题,有三个结构性原因。首先,上下文窗口是根本上限——模型可以在任何单步中“看到”的信息量受到其架构上下文窗口这一硬上限的限制。其次,上下文窗口内的信息质量本身决定智能体行为。第三,长时域任务产生超出简单汇总或截断的上下文工程需求。这些因素共同使上下文管理从被动文本包含转变为执行器工程中的主动控制设计领域。
提示工程和上下文工程之间的区别不在于是否在运行时修改模型输入,而在于动态性和来源。提示工程师手动构造一个静态输入字符串。上下文工程师设计一个在执行器控制下的实时管道,为每一步动态组合信息。这一转变反映了从“模型能否回答此问题?”到“智能体在长时间运行中能否跟踪足够的状态以完成任务?”的根本性演变。
短期上下文管理处理单个执行步骤内模型可见的动态信息。关键机制包括:窗口策略,如滑动窗口和基于令牌的预算;结构化组织,如同质化、分块和检索增强生成;以及动态压缩,如上下文优先化、选择性信息丢弃和分层抽象。
中期上下文管理涉及跨多个执行步骤(但限于单次会话)的状态维护。与短期上下文不同,中期状态需要在步骤之间保持一致性,例如累积的工具调用历史、环境变量、对话状态以及部分完成的任务工件。实践中的关键机制包括:会话级键值存储(如LangChain的RunnableWithMessageHistory)、结构化会话元数据(会话ID、时间戳、角色映射),以及基于文件或数据库的会话快照。这些机制确保智能体在多次工具调用或模型生成之间能够恢复上下文,而无需重新加载全部历史。然而,会话状态管理的挑战在于状态膨胀:随着会话长度增加,维护完整的历史可能导致上下文窗口溢出,因此需要结合压缩或摘要策略。
长期记忆系统使智能体能够在跨越不同会话、任务甚至重启的时间范围内持久化信息。这与中期状态不同:长期记忆关注的是知识而非即时上下文,例如用户偏好、领域知识、学习到的技能以及跨会话的长期事实。实现方式包括外部向量数据库(如Pinecone、Weaviate、Chroma)用于语义检索,关系数据库用于结构化知识,以及专门化的记忆管理器(如MemGPT/Letta)。长期记忆系统的设计关键包括:记忆的编码(如何将交互转换为可存储的向量或事实)、检索策略(相似度阈值、重排序、多样性与时效性权衡),以及遗忘机制(处理过时信息、概念漂移和存储预算)。当前长期记忆系统面临的核心问题是:记忆检索的准确性随存储规模增长而下降,且如何避免检索到的无关信息污染上下文导致性能下降仍是一个开放问题。
当智能体需要在超过100轮交互的长时域任务中保持连贯性时,基本的上下文管理策略往往失效。长时域技术旨在防止上下文漂移、任务分叉和状态遗忘。代表性方法包括:循环式摘要(Recursive Summarization),定期对历史进行摘要并替换原始保真信息;反思与重述(Reflection & Recapitulation),让智能体在关键步骤回顾其当前任务状态和已完成动作;基于规划的分解(Plan-based Decomposition),将长任务拆分为子任务并为每个子任务维护独立的上下文;以及分层记忆架构(Hierarchical Memory),将近期细节存于主动窗口,中期摘要存于慢速层,长期事实存于持久存储。当前前沿系统(如Google的Veo代理、Anthropic的Claude Code长时间任务)已整合部分技术,但仍报告在数百轮后出现主题漂移、工具调用循环和遗忘目标的问题。
尽管上述技术有所进展,上下文漂移——即智能体随着轮次增加逐渐偏离原始任务目标或丢失关键信息——仍是根本性限制。漂移的形式包括:主题迁移(智能体开始关注次要方面)、信息稀释(早期关键细节被后续内容淹没)、任务退化(智能体不再执行有效步骤,而是重复无效循环)。当前方法的局限在于:摘要会丢失细粒度信息,检索可能返回无关结果,分层记忆增加了管理开销。此外,所有方法都无法完全解决“模型在长窗口末端的注意力稀释”这一固有问题。未来的上下文工程需要更动态的适应用户意图变化的能力、更精确的遗忘与优先级策略,以及跨模型的上下文压缩标准。
生命周期层负责智能体状态的生命周期管理和跨循环的控制流。执行器维护的状态包括:任务状态、环境状态、记忆和认知状态,以及注意和暂停状态。状态管理的关键设计决策包括:状态持久性与易失性、状态一致性与恢复、以及状态可见性。
ReAct范式的执行循环本质上是:模型接收上下文、生成思维、确定动作、执行动作、观察结果并重复。虽然简单,但该循环中的具体工程决策(预算限制、重试策略、失败处理、人类反馈循环)对智能体质量和可靠性有显著影响。
多智能体系统可以组织为几种模式:主从模式、团队模式、市场模式和层次模式。每种模式在能力扩展和协调开销之间做出不同权衡。
在软件工程智能体中,执行器将端到端的软件贡献工作流建模为可管理管道,包括问题解析、分支创建、代码生成、测试执行、评审反馈和拉取请求创建。每个步骤由不同工具或智能体角色处理,执行器编排整个生命周期。
可观测性层捕获智能体执行轨迹、成本、故障和可靠性信号。生产部署使用专门的追踪和监控平台,如Langfuse、Arize Phoenix、OpenLLMetry和LangSmith。这些平台提供调用级追踪、成本归因、异常检测和仪表板。
一些平台为智能体运营提供更深度集成功能,如LangSmith、LangFuse和Phoenix。它们支持轨迹回放、A/B评估、回归测试和基于反馈的优化。
智能体执行会产生可变的令牌和计算成本。可观测性平台提供成本归属、按动作分解、预算管理和成本优化建议。
智能体可靠性工程关注故障模式、自动恢复和SLO/SLI监控。关键指标包括任务完成率、平均执行时间、重试率和错误率。
当前景观碎片化,不同平台监控不同智能体属性。通向统一可观测性的路径可能包括标准化追踪格式、跨层一致指标和集成式仪表板。
验证层将任务定义和智能体轨迹转换为结构化反馈,用于改善、选择或保证。评估生命周期包括任务和基准接地、执行前准备验证、受控执行和轨迹捕获、多级判断和失败归因、以及持续回归和部署反馈。
评估从定义任务规范和基准构建开始。SWE-bench、AgentBench、WebArena和GAIA等基准测试提供了可复现的任务定义。
在智能体执行任务前,验证层确保环境正确配置、工具可用和上下文准备好。
智能体在受控沙箱中执行任务,执行器捕获完整轨迹,包括模型调用、工具调用、交互结果和时间戳。
轨迹通过多级判断管道:语法正确性、功能正确性、性能、安全和行为约束。失败归因将失败追溯到特定动作或决策点。
评估结果反馈到智能体改进循环中,支持回归测试、A/B比较和持续监控。
验证层将执行器从“尝试执行”转变为“可衡量改进”。其与可观测性和治理的集成对于将智能体部署从实验阶段推进到生产阶段至关重要。
治理层通过权限模型和身份管理控制智能体行为。关键机制包括:基于角色的访问控制、基于属性的访问控制、能力系统和身份联合。生产系统中的权限模型必须平衡安全约束和操作可用性。
生命周期钩子允许在智能体执行的关键点插入安全策略:动作前验证、动作后审计、失败处理和人机交互门控。
组件强化涉及保护执行器基础设施免受攻击:沙箱隔离、输入验证、输出过滤和依赖管理。
声明式宪法定义智能体行为约束为可验证规则,而非隐式提示指令。这使策略检查可审计和不可绕过。
治理层需要完整审计轨迹以支持合规、取证和报告。审计记录包括所有动作、决策点、策略检查和人员干预。
治理层填补了模型级安全和基础设施级安全之间的空白。它通过策略、权限和审计处理模型不能独自管理的安全问题。
治理层面临开放研究问题:动态策略适应、跨组织治理标准化、隐私保护审计和人在环系统的自动化策略执行。
本章讨论不属于单个ETCLOVG层但跨层出现的关注点,包括可移植性、可扩展性、成本效益、安全性和合规性。
智能体执行器设计面对一个三方权衡:更高质量的智能体通常需要更多的计算和推理时间,更快的执行可能牺牲质量或增加成本。
增加智能体能力通常需要放宽控制约束,而加强控制可能限制智能体可以执行的操作。治理层和工具层之间的交互是关键设计点。
执行器各层之间的耦合程度是一个设计选择。紧密耦合可能提供优化机会,但降低可替换性和可维护性。解耦增加灵活性但可能引入性能开销。
智能体执行器正从开发框架演变为完整平台系统,集成了执行、工具、上下文、生命周期、可观测性、验证和治理功能。
跨层综合揭示了对集成执行器工程框架、标准化接口、基准测试和评估方法论的需求。
执行环境安全仍需大量研究:改进沙箱隔离、防止逃逸、管理资源利用率和跨平台可移植性。
长时间运行的智能体面临状态持久性、一致性和恢复挑战。需要能优雅处理中间故障和部分失败的状态管理方案。
从复杂智能体轨迹中诊断故障原因需要自动化工具和归因方法。当前缺乏标准化的诊断框架。
智能体之间、智能体与工具之间以及智能体与人类之间的交接需要标准化协议和工件。当前景观碎片化。
随着语言模型能力增强,执行器工程必须适应:一些当前执行器机制可能变得不必要,而新挑战可能浮现。
本综述系统性地处理了智能体执行工程,提出了ETCLOVG七层分类法,并将170多个开源项目映射到该分类法。核心论点是,执行器,而非模型本身,是真实世界智能体可靠性的瓶颈约束。执行器工程涵盖执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证和治理。通过系统映射,我们揭示了生态系统的密度模式、覆盖空白和新兴设计原则。开放问题包括执行环境强化、长时间运行状态管理、故障诊断、标准化交接以及执行器随模型进步的适应性。我们希望本综述能为智能体执行工程提供共同词汇和系统框架,弥合实践知识和研究词汇之间的鸿沟。
英文题目:Agent Harness Engineering: A Survey 作者:Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu, Lin Zhao, Xiaoying Liao, Yingrui Ji, Janet Wang, Jianyang Gu, Yingqiang Ge, Weijie Xu, Xi Fang, Xiang Xu, Tianchen Zhao, Youngeun Kim, Tianyang Wang, Jihun Hamm, Smita Krishnaswamy, Jun Huan, Chandan K Reddy arXiv ID:llm-harness 类别:cs.AI, cs.SE, cs.LG Comments:Survey on agent harness engineering; project page: Awesome-Agent-Harness 原文链接:https://picrew.github.io/LLM-Harness/main.pdf
摘要:马赛克战常被视为与新兴颠覆性技术的进一步突破相关的遥远未来概念。本文认为,乌克兰战争挑战了这一观点。尽管乌克兰并未明确使用该术语,但其战场适应能力反映了马赛克战的核心原则,包括分布式低成本无人系统、自适应杀伤网、分散式决策以及快速的传感器到射手集成。文章表明,马赛克战不仅仅是一种推测性的未来愿景,更是理解当代战争中军事成功与效能日益有用的视角。同时,乌克兰的案例揭示了战争特性的变化,即作战优势越来越依赖于适应性、分布式兵力运用以及传感器、决策者和射手的快速集成,同时也暴露了当前在互操作性、通信韧性、持续保障和组织扩展方面的局限。
问题陈述:乌克兰战争如何通过展示马赛克战的核心原则已在当代战争中得到实施,从而挑战了将其普遍误解为遥远或过于未来主义概念的观点?
启示:军队、国防规划者和采购组织应停止将马赛克战视为遥远的未来概念,并立即开始从乌克兰汲取实际经验教训。即使乌克兰军队未直接使用该术语,其战场成功也与马赛克战的核心原则密切相关,特别是分布式无人系统、软件赋能杀伤网、授权主动性以及快速适应性的整合。因此,关键的概念转变是从以平台为中心的兵力设计转向模块化、可消耗、可互操作且能快速重组的能力。这需要在条令、采购、训练、数字集成和持续保障方面进行相应的变革。
俄罗斯于2022年2月对乌克兰发起的全面入侵,造成了自第二次世界大战以来欧洲最广泛的大规模国家间战争,并为观察当代战争的演变提供了前所未有的实证环境。其中最引人注目的发展是分布式无人系统、数字集成平台和分散式决策实践在战场上的迅速扩散。虽然这些发展常被单独分析为“无人机战争”、网络化作战或战场创新的要素,但本文认为,通过马赛克战的概念视角可以更连贯地理解它们。尽管乌克兰并未明确使用该术语,但其许多战场实践反映了马赛克战的核心原则:分布式低成本系统、自适应杀伤网、分散式执行以及快速的传感器到射手集成。因此,乌克兰的案例挑战了马赛克战主要是一种与新兴颠覆性技术相关的遥远未来概念的普遍假设。
美国国防高级研究计划局(DARPA)的战略技术办公室(STO)提出了马赛克战概念,以应对将多种任务集中于少数精良、高价值资产的以平台为中心的精致兵力设计日益下降的作战价值,以及美国相对于对手的技术优势正在减弱的问题[1]。这些系统的特点是开发周期长、适应性有限、指挥控制结构僵化,使其难以适应由反介入/区域拒止(A2/AD)战略、电子战和精确打击能力扩散所塑造的快速演变的作战环境[2]。诸如旨在破坏军事行动而攻击关键节点和网络的“系统摧毁战”等对抗性战术,突显了集中式系统和线性杀伤链的脆弱性[3]。
马赛克战架构优先考虑松耦合、模块化和快速可组合性,使兵力包能够随着任务和威胁条件的变化而重新配置和重新分配[4]。马赛克设计不是将多种功能集中在少数紧密集成的多用途平台上,而是将能力分解为许多更小、专业化、可互操作的节点,这些节点可以组合成针对特定任务的定制化编组或兵力包[5]。在实践中,这通常意味着从“大而全”的所谓单体平台转向更小、更分布式的“瓦片”平台,包括无人系统,其中昂贵的多任务系统被分解为众多成本更低的单元,可以更广泛地部署。
这种设计逻辑支持可负担的规模,并通过冗余提高了韧性。如果执行特定功能的节点损失,可以派遣具有相同功能的另一个平台来恢复编组,而不会导致整体任务效能崩溃。然而,同样的分解将复杂性向上推至集成和协调层面。基于瓦片的部队必须同步大量异构节点,这增加了对通信、数据融合和指挥控制的需求[6]。
传统的杀伤链通常是线性和顺序的:传感器探测,信息流经指挥层,授权批准,射手交战——这造成了脆弱的依赖关系,单个节点的中断就可能导致整个链条瘫痪。相比之下,马赛克战青睐杀伤网:这种网络化架构提供了从感知到决策再到效果的多个并行路径,使部队能够重组可用节点、绕过损失路由、并在性能降级时保持作战节奏[7]。从概念上讲,这是通过功能分解实现的:与其将OODA(观察-判断-决策-行动)过程视为固定的线性链条,不如将观察、判断、决策、行动功能分离为可互操作的要素,然后为特定任务重新组合成多个并发的“路径”。这一点稍后将通过乌克兰实施的一个具体杀伤网实例加以说明。借鉴兹维贝尔森的观点,传统杀伤链可以类比为一棵树,一种具有可识别的树干-树枝依赖关系的层级化线性结构,这种结构产生了脆弱的关键节点[8]。相比之下,杀伤网则类似于根茎结构,一种多对多连接的去中心化网状结构,可以通过最短路径(避开层级)路由效果以提高速度,或者重新路由以绕过中断或被摧毁的节点。此外,根茎结构可以自我重组或修复。
重要的是,杀伤网不依赖于“无处不在”的连接;相反,网络化被视为任务自适应的,需要在带宽、覆盖范围和延迟之间取得平衡,以在拒止或高强度环境中维持信息流。成熟的杀伤网方法不仅仅是“连接更多”;它应具备弹性、敏捷性和智能性,能够在干扰或故障下持续运行,快速组装适合任务的编组,并利用人工智能支持进行编组规划、恢复和自适应学习等任务[9]。这些优势伴随着权衡:杀伤网增加了协调需求,并对指挥控制、通信和集成施加了更大压力,以防止分布式灵活性演变为分布式混乱。
有效的马赛克战依赖于集中意图但分散执行。任务式指挥赋予下属目的和边界,同时给予他们行动自由。以决策为中心的战争则增加了在对抗条件下比对手做出并执行更快、更好决策的目标[10]。两者结合,使得较低层级能够抓住稍纵即逝的机会,而无需等待上级批准。总体而言,马赛克概念旨在通过加速OODA循环和减少杀伤过程延迟来压缩时间[11]。
以决策为中心的术语来说,马赛克部队不仅通过加速自身的OODA循环寻求优势,还通过使对手“观察”和解读兵力结构与意图的能力复杂化来寻求优势,从而即使在战场透明度高的条件下也能延长对手的决策周期[12]。通过使用诱饵、虚假辐射和误导性运动模式,马赛克部队制造关于其真实兵力结构和意图的混乱,然后在行动时刻才揭示实际攻击路径,从而突然打乱对手的决策周期。
自主性以两种互补形式为核心:人的自主性(战术边缘的授权决策权)和机器赋能的自主性/自动化,后者加速执行并减轻认知负荷。自动化还可以通过支持在带宽限制或网络中断下的协作信息处理和传输,以及通过数据驱动的态势理解协助指挥官实现“先探测-先理解-先行动”的效果,来支持分布式指挥控制[13]。通过将决策权和执行能力前推,部队即使在与上级总部的联系中断时,也能保持局部主动性和效果生成能力。这种韧性在对抗性电磁频谱环境中尤其宝贵,因为对手的电子战会威胁到集中式指挥控制网络或因射频辐射和其他特征信号而导致的探测[14]。
并非所有形式的战场适应或技术创新都自动构成马赛克战。该概念特指分布式架构,其中模块化的“瓦片”可以动态重组为针对特定任务的兵力包,跨异构系统集成感知、决策和效果。虽然乌克兰的战时适应包括许多符合此种方法的要素,如分布式无人机运用、数字化战场集成和分散式执行,但冲突的其他方面仍受更传统动态(如以炮兵为中心的消耗战和阵地战)的影响。因此,区分一般性适应与真正的马赛克式架构对于避免过度扩展该概念,并阐明乌克兰战场实践中哪些具体特征与马赛克战原则相符,至关重要。
分布式大规模低成本无人系统运用
俄罗斯的全面入侵始于2022年2月,投入了一支前置部署且具备战斗力的部队,但相对于其政治目标而言规模有限,旨在通过对乌克兰重心基辅的快速机械化推进制造震慑效果。其作战构想结合了空中突击(最引人注目的是夺取霍斯托梅尔/安东诺夫机场的企图)与旨在夺取关键节点、扰乱乌克兰指挥控制并对政治重心施加压力的纵深装甲突击[15]。可以说,俄罗斯的部队质量在此初始阶段处于最高水平。然而,相对于任务规模,可用兵力有限,且其规划假设显然预期的是快速崩溃而非持续抵抗。实际上,俄罗斯部队在协调、指挥控制和后勤方面遇到困难,快速营级战术群的机动遭遇了乌克兰的坚决防御[16]。此阶段的特点是快速机械化运动,部队被命令以行政纵队沿公路推进,这使其容易遭受伏击和乌克兰广泛使用的便携式反坦克制导武器(特别是“标枪”和NLAW)的攻击[17]。重要的是,“快速推进”并未随着俄罗斯对基辅的攻势停滞而结束。2022年9月,乌克兰在哈尔科夫攻势中展示了大规模快速机动能力,利用俄军防守薄弱的区域实现了快速突破,并在数天内收复了大片领土[18]。
从2022年底到2023年,战争更明确地转向以炮兵为中心的消耗战和阵地战,由防御工事、雷区和激烈的侦察-打击对抗塑造的前线日益稳定[19]。无人机支持的观察改善了目标定位并压缩了杀伤链,使得炮兵和弹药供应成为伤亡和作战节奏的核心驱动因素。这种动态支撑了消耗战,尤其是在巴赫穆特周边,并框定了乌克兰2023年的反攻,面对层层防御地带,进展必然是缓慢且更有条理的[20]。俄罗斯试图通过“绞肉机”式攻击和反复的装甲突击重获主动权,在堑壕和地雷环境中往往造成高损失而收获有限[21]。总体而言,这一时期突显了乌克兰对更多火炮系统、弹药和情报、监视与侦察(ISR)赋能器的需求日益增长,因为战争从快速机动转向了持续的火力、消耗和耐力比拼[22]。
乌克兰以无人机为中心的战争最好被理解为不仅是一种技术转变,更是一种与马赛克战原则相一致的组织和作战转型与演变[23]。大量低成本无人机促成了分布式感知与打击架构,其中许多可消耗平台同时作为传感器、中继器和射手运行。乌克兰部队不是将能力集中在少数高价值平台上,而是通过将众多小型系统灵活重组并集成到自适应侦察-打击网络中产生效果[24]。这种架构实现了快速的传感器到射手集成,通过冗余提高了韧性,并使战术单位能够动态地将针对特定任务的“瓦片”组装成作战杀伤网[25]。从这个意义上说,战场上日益增长的以无人机为中心的趋势,反映了向分布式和模块化兵力运用的更广泛转变,而不仅仅是无人平台的扩散[26][27][28][29][30]。
到2025年,无人地面车辆(UGV)在最后一公里后勤和伤员后送方面变得重要,其明确目标是减少人员在接触线附近暴露于炮火和无处不在的无人机威胁的风险[31]。然而,作为配备重机枪的武装平台,它们在作战中的重要性日益增加。诸如一名操作员监控多辆无人地面车辆、监视多个摄像头画面、仅在目标出现时进行手动控制等概念,符合更广泛的趋势:接触线上的人员更少,杀伤区内有更多的传感器和可消耗系统[32]。乌克兰部署低成本、装载炸药的海上无人水面艇(USV),在没有海军的情况下,通过迫使俄罗斯黑海舰队主力舰艇从塞瓦斯托波尔撤退到更远的港口,从根本上削弱了其在区域内的主导地位[33]。与这一海上成功并行的是,乌克兰拦截无人机的迅速成熟为近程防空增加了一个日益决定性、低成本的层次。到2026年2月,像“野黄蜂”高速“毒刺”这样的系统据称在基辅及其周边地区摧毁了超过70%的来袭“沙希德-136”/“天竺葵-2”型单向攻击无人机,从而减少了对稀缺的西方地对空导弹的依赖,并将其保留用于应对更高端的威胁[34]。总体趋势是明确的:战争持续越久,就越明显地类似于以小型无人系统为中心的战争,不断扩大的对抗性监视与打击范围稳步提高了机动、再补给和集中的成本。
乌克兰在小型低成本无人系统方面的快速战场创新,是由一个去中心化的生态系统驱动的,在这个系统中,士兵、志愿者、初创公司和旅级部队将广泛可用的民用技术大规模改造为军事能力[35]。关键的是,决定性的转变更多地依赖于现有技术的新颖应用和大规模扩散,而非技术突破,报告强调“真正的改变不在于技术创新本身,而在于现有技术的新颖应用”[36]。这个生态系统将紧密的“开发-战斗测试-修改-战斗测试”循环制度化,通过前线用户和开发者之间的直接反馈回路,将传统的研发周期从数年压缩到数月,实现了“大规模战术实验,随后武装部队广泛采用技术”[37]。这些模式与马赛克战强调分布式、分解的能力架构和模块化高度一致,最初由DARPA提出,即将许多不同的“瓦片”(具有不同的传感器和武器)组装成针对特定任务的兵力包,以实现效果集中而非兵力集中。DARPA进一步强调可消耗性是核心驱动力,即部署大量可消耗平台,这些平台可以在承受损失的同时维持作战输出。
自适应杀伤网的出现
乌克兰的战时轨迹指向自适应杀伤网而非线性杀伤链的出现,因为其以“德尔塔”(Delta)为中心并与“GIS阿尔塔”(GIS Arta)和“克罗皮瓦”(Kropyva)等系统相连的作战软件生态系统,作为一个联邦集成层运行,跨层级连接传感器、决策者和射手,而非依赖单一固定的传感器到射手序列[38]。“德尔塔”是一个军事态势感知和战场集成平台,将来自无人机、卫星、固定摄像头、传感器、侦察单位和其他报告流的信息汇总到一个共享的作战图中,而“元素”(Element)支持安全协调,“德尔塔管”(Delta Tube)分发实时视频,“任务控制”(Mission Control)协助飞行规划,从而在战场压力下维持快速重新分配任务的能力[39]。在这个更广泛的架构中,“GIS阿尔塔”作为一个指挥控制与火力任务分配系统,执行的功能最常被类比为“炮兵版优步”(Uber for artillery),因为它汇集来自无人机、前沿观察员、雷达、智能手机、GPS设备和其他来源的目标数据,然后将火力任务匹配给最能以速度、精度和经济性提供所需效果的可用火炮、迫击炮、导弹或无人机单位[40]。“克罗皮瓦”作为一个前线战术火力控制和导航工具,通过支持任务规划、射击解算、阵地交换以及在连接降级下的离线操作,补充了这一架构,从而在通信受到对抗或部分中断时保持作战功能[41]。总的来说,这些系统使乌克兰部队能够压缩目标定位周期、动态分配火力、并在特定节点受到干扰、降级或摧毁时重新路由效果,这就是为什么乌克兰的战场管理越来越像一张网而非一条链。
边缘指挥控制与乌克兰通过人机自主实现的时间压缩
乌克兰的人员自主性和主动性(授权和分散式战术执行)被广泛追溯到2014年后的改革和伙伴培训,这些改革和培训旨在分散指挥、使士官队伍专业化,并将领导文化转向任务式指挥原则[42]。一份关于西方培训工作的详细学术报告指出,任务式指挥被有意地作为“可输出的专业知识”进行教授和示范,以使下属能在指挥官意图范围内更快行动,同时也指出了实施中的摩擦:乌克兰方面缺乏与“任务式指挥”对等的术语,且该概念与苏联遗留的等级制度和有限的信任相冲突[43]。在作战实践中,战争早期的证据也表明,乌克兰部队在迅速展开的交战中保持了战术主动性,即使高层指示不完整或中断,也能有效行动[44]。这种文化上的“行动许可”有效地将数量上的短缺转化为节奏优势,允许分散的小型单位通过更快的局部决策和利用稍纵即逝的机会来弥补,这与马赛克战的分权执行和快速重组原则高度一致。同时,多项评估提醒,自主性和分散化并非普遍一致:随着战争规模扩大,某些功能(特别是侦察/无人机“屏幕”)在营和旅级变得更加集中,外部观察者将乌克兰武装部队的整体指挥方式描述为北约式任务式指挥愿景与更集中控制倾向的混合体[45]。然而,实践因单位和层级而异,一些指挥官接受任务式指挥原则,而另一些则保持更严格的控制,这反映了条令的不确定性和个人领导风格[46]。
乌克兰马赛克战的另一个显著特征是通过分布式情报、监视、侦察与打击集成压缩了传感器到射手的时间线。传统的目标定位周期:探测、识别、决策、交战,通常需要数小时甚至数天,因为信息需经过指挥层级传递并获得交战授权。乌克兰部队通过将传感器与射手并置、将交战授权下放至战术层级、以及采用自动化或半自动化作战管理系统,将这些周期压缩至数分钟甚至数秒[47]。此外,乌克兰通过将感知和打击决策下放至战术无人机操作员,并辅以人工智能赋能的目标识别、跟踪、自主导航和末段目标锁定,压缩了杀伤周期,从而在对抗性电磁条件下改善了对稍纵即逝目标的交战能力,同时并未取消人对开火决策的控制[48]。
平台异构性与传感器集成
乌克兰的杀伤网由商用、临时改装和专用军用平台的异构组合构建而成。虽然这种多样性在常规兵力规划中通常被视为不利因素,因为它使互操作性复杂化并增加了训练、维护和后勤的负担,但乌克兰已将其转化为作战优势。使用多种平台类型和采购渠道增加了冗余,实现了快速替换和迭代,并使俄罗斯部队更难通过针对特定平台的反制措施压制乌克兰的能力[49]。平台组合包括用于近程情报、监视与侦察的小型商用四轴飞行器(大疆“御”系列、道通等类似产品);改装用于自杀式攻击的FPV竞速无人机;专用巡飞弹(“弹簧刀”、“凤凰幽灵”及乌克兰自研系统);中航时战术无人机系统(RQ-11“渡鸦”、“美洲狮”及同等产品);以及用于纵深侦察的大型战役级系统[50]。每个平台类别服务于不同的角色,显著的重叠性支持了替换和冗余。传感器集成超越了战术无人机系统,扩展到国家卫星侦察、西方情报、监视与侦察资产(包括天基和机载系统)、地基传感器和人力情报网络[51]。乌克兰的作战管理系统融合了这些多源输入,创建了一个具有冗余覆盖和多重提示路径的分层情报、监视与侦察架构。考虑到数据格式、安全分类和组织边界的多样性,这种集成在技术上具有挑战性,是通过专用软件、商业工具以及由志愿者程序员和军事技术人员开发的临时接口组合实现的[52]。
通信架构与态势感知
乌克兰的分布式杀伤网需要能够在对抗性电磁频谱条件下将传感器数据从分散平台传输到射手和作战管理节点的通信架构。乌克兰部队混合使用了视距无线电链路、商用蜂窝网络、卫星通信(星链)和临时中继技术来维持连接[53]。这种异构通信架构通过多样性提供了韧性:当俄罗斯电子战干扰一种链路类型时,可以使用替代方案,但缺乏标准化接口和数据格式使自动融合和跨平台协调复杂化[54]。乌克兰部队严重依赖人工操作员手动整合来自不同来源的数据,增加了认知负担并限制了可扩展性[55]。通信链路对俄罗斯电子战的脆弱性成为一个关键的摩擦点。俄罗斯部队对GPS、商用蜂窝网络和无人机控制链路采用了复杂的干扰和欺骗手段,迫使乌克兰操作员采取包括跳频、定向天线、自主导航和减少对实时链路依赖在内的反制措施[56]。持续的电子战-反电子战循环推动了乌克兰通信架构的持续适应,双方都在压缩的时间框架内迭代战术和技术[57]。
在这种异构通信架构中,乌克兰的“德尔塔”作战软件作为一个基于云的作战管理和数据融合系统,从一个态势感知地图(由“空中侦察”构想)演变为一个将雷达、视频、文本、人力情报、信号情报和伙伴情报集成到单一作战图中的平台,可从旅级访问至总参谋部级[58]。从技术上讲,“德尔塔”的“类谷歌地图”界面支持分层过滤、历史活动模式分析,并通过高亮电子战影响区域来协助无人机打击任务规划,有助于将分散的传感器数据流转化为可执行的任务[59]。“德尔塔”也处于一个更广泛的作战软件生态系统之中(例如,大多数炮兵使用的“克罗皮瓦”),报告称该系统将目标定位时间从20多分钟缩短至约1分钟,从而缩短了传感器到射手的工作流程[60]。
技术差距与挑战
尽管取得了作战上的成功,对乌克兰战时“杀伤网”/马赛克式战法的分析强调,在通信碎片化、装备异构化和激烈电子战的条件下,技术和集成摩擦仍会制约其可扩展性和韧性[61]。一个反复被指出的差距是,难以在一个由传感器、通信链路和战场管理工具组成的多样化生态系统中实现标准化互操作性,这些系统是在战场压力下涌现并扩展的,而非通过单一、预先规划的企业架构[62]。在实践中,互操作性参差不齐,当系统无法平滑集成时,广泛依赖手动变通方案(例如,在应用程序间传输屏幕截图)[63]。这些变通方案使人员仍需介入基本的数据传输和关联,增加了操作员工作量,并限制了传感器到射手协同的自动化程度。缺乏即插即用的标准化,可与美国的模块化开放系统方法(MOSA)相比较,美国法律将其定义为一种模块化设计和接口策略,旨在支持广泛采用的标准,并实现组件的更易集成和替换[64]。相比之下,乌克兰的软件与平台生态系统往往不得不通过务实的集成和变通方案“共同成长”,即使像“德尔塔”这样的系统是明确作为集成平台开发的,并按照北约互操作性标准进行测试,以便与盟军系统交换作战态势图[65]。因此,实现更强的马赛克战可扩展性被广泛视为一个架构挑战:转向开放、模块化的数据交换方法和通用集成路径,以减少工具间定制化拼接的需求[66]。另一个技术差距涉及人工智能赋能的自主性和指挥控制:降低对干扰的敏感性、限制操作员工作量和人员暴露风险,以及实现更大规模无人系统群的同步运用,越来越需要不依赖持续射频链路或光纤长度的机载导航、感知和协调功能[67]。合乎逻辑的下一步是发展网络化、日益智能的蜂群,或更广泛地说,由人类操作员设定目标和约束、系统在群内自主分配任务的多低成本平台协同群组。此类蜂群将通过使分布式资产能够协调、重新分配功能并以更少的人工微观管理产生效果,从而有助于更无缝、更成熟地实施马赛克战。这有望实现更好的同步、冲突消解,以及跨多个平台同时产生分布式集群效果。与此同时,这也提高了对可互操作数据交换、安全网状网络和可靠边缘融合的要求。随着自主性从辅助功能转向目标交战,人类将日益复杂的任务委托给人工智能赋能系统,直接人工控制的程度可能会削弱。这反过来又加剧了在马赛克战背景下围绕致命性自主武器系统的法律和伦理关切。
乌克兰武装部队实施马赛克战的社会与组织差距
乌克兰扩展类马赛克战实践的能力受到组织摩擦的限制,特别是在大规模战时部队中捕获、验证和传播快速变化经验教训的困难[68]。尽管自下而上的创新产生了有效的局部解决方案,但各旅的采用情况仍不均衡,整合民用技术的限制也阻碍了更广泛的实施[69]。这些差距因多代际部队内部的文化差异而加剧,这种文化将苏联式层级制与非正式横向网络相结合,使得主动性和扩散在早期采用者之外并不一致[70]。评估指出,乌克兰正在摆脱集中式指挥,但持久的适应需要更强的训练、学习、领导和条令,以便在整个部队中制度化新实践[71]。
分布式后勤、生产能力与快速过时
后勤保障限制了乌克兰可消耗无人系统模型的可扩展性,因为大规模使用低成本、高损耗平台对替换品、电池、备件、弹药和维修能力产生了巨大需求[72]。乌克兰通过商业采购、志愿者网络和外国支持维持了这一模式,但这种很大程度上临时性的系统面临明显限制,因为分散的部队也需要在对抗条件下进行本地维修、前沿储备和韧性分发[73]。这些压力使得集中式后勤枢纽日益脆弱,并推动乌克兰转向更多分布式、冗余的、具有多条供应路径的保障网络[74]。随着无人机使用从数千架扩展到数万架系统,制度化的后勤、受保护的生产能力和更强的维护基础设施对于维持战斗力变得至关重要[75]。与此同时,快速的“措施-反制措施”循环意味着许多前线适应措施在能够全面列装之前就已过时,这使跨混合代次装备的标准化、训练、维护和互操作性变得复杂[76]。
乌克兰战争表明,马赛克战未必是一个主要与量子计算、高超音速导弹或其他高度先进的突破性系统等新兴颠覆性技术相关的遥远未来概念。相反,乌克兰的案例证明,通过现有技术的创造性集成、分布式架构和适应性作战实践,其许多核心原则已在当代战争中显现。尽管乌克兰并未明确使用“马赛克战”这一术语,但其战场适应仍反映了该概念的许多核心特征。最重要的是,乌克兰展示了分布式低成本无人系统、适应性杀伤网、分散式决策、快速传感器到射手集成以及持续战场驱动创新的军事价值。这些实践使乌克兰军队能够通过灵活组合许多更小且通常可消耗的要素来产生效果,而非主要依赖数量有限的高度集成且昂贵的平台。从这个意义上说,乌克兰案例表明,马赛克战的实践相关性与其说在于未来主义技术本身,不如说在于比对手更快地连接、重组和适应异构能力的能力。与此同时,战争也强调,马赛克战并非单纯的技术问题。乌克兰的成功不仅依赖于无人系统和数字工具,还依赖于组织和文化因素,特别是下放的主动性、快速学习、前线用户与开发者之间的紧密反馈循环,以及在战场压力下进行实验的意愿。因此,这种方法的有效性取决于技术、指挥文化和机构适应性之间的相互作用。在实践中,马赛克战既是关于硬件或软件,也同样关乎组织设计和作战方法。然而,乌克兰的经验也暴露了当前实施这一概念的成熟度局限。异构平台、碎片化通信、不均衡的互操作性、沉重的电子战压力、手动变通方案以及持续的后勤负担,都使分布式作战系统的规模化和制度化变得复杂。因此,乌克兰既验证了马赛克战的作战相关性,同时也展示了在消耗和持续适应条件下实现标准化、集成和维持的难度。
核心启示是明确的。不应将乌克兰视为孤立的特例,而应将其视为一个非常重要的迹象,表明马赛克战的逻辑已经在塑造成功的当代战争,即使并未使用该术语进行描述。因此,关键挑战不在于此类概念是否重要,而在于条令、采购、指挥控制和后勤保障必须如何改变,以使武装力量在未来冲突中更加分布式、可互操作、可消耗和适应性强。
[1] Stew Magnuson, “DARPA Tiles Together a Vision of Mosaic Warfare,” DARPA, 2018, https://www.darpa.mil/news/features/mosaic-warfare; Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024; Peter Simon Sapaty, “Mosaic Warfare: From Philosophy to Model to Solutions,” International Robotics & Automation Journal 5, no. 5 (September 2019): 157–66, https://doi.org/10.15406/iratj.2019.05.00190.
[2] Bryan Clark, Daniel Patt, and Harrison Schramm, Mosaic Warfare: Exploiting Artificial Intelligence and Autonomous Systems to Implement Decision-Centric Operations (Washington, DC: Center for Strategic and Budgetary Assessments, 2020), https://csbaonline.org/research/publications/mosaic-warfare-exploiting-artificial-intelligence-and-autonomous-systems-to-implement-decision-centric-operations; Jessie Riposo, Megan McKernan, and Chelsea Kaihoi, Prolonged Cycle Times and Schedule Growth in Defense Acquisition: A Literature Review (Santa Monica, CA: RAND Corporation, 2014), https://www.rand.org/pubs/research_reports/RR455.html; Jeff Hagen, Forrest E. Morgan, Jacob L. Heim, and Matthew Carroll, The Foundations of Operational Resilience—Assessing the Ability to Operate in an Anti-Access/Area Denial (A2/AD) Environment: The Analytical Framework, Lexicon, and Characteristics of the Operational Resilience Analysis Model (ORAM) (Santa Monica, CA: RAND Corporation, 2016), https://www.rand.org/pubs/research_reports/RR1265.html.
[3] Heather R. Penney, Scale, Scope, Speed & Survivability: Winning the Kill Chain Competition, Mitchell Institute Policy Paper 40 (Arlington, VA: Mitchell Institute for Aerospace Studies, May 2023), https://www.mitchellaerospacepower.org/scale-scope-speed-survivability-winning-the-kill-chain-competition/; Jeffrey Engstrom, Systems Confrontation and System Destruction Warfare: How the Chinese People’s Liberation Army Seeks to Wage Modern Warfare (Santa Monica, CA: RAND Corporation, 2018), https://www.rand.org/pubs/research_reports/RR1708.html.
[4] DARPA, “Strategic Technology Office Outlines Vision for ‘Mosaic Warfare,’” August 4, 2017, https://www.darpa.mil/news/2017/sto-mosaic-warfare; Stew Magnuson, “DARPA Tiles Together a Vision of Mosaic Warfare,” DARPA, 2018, https://www.darpa.mil/news/features/mosaic-warfare; Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024.
[5] Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024; Bryan Clark, Daniel Patt, and Harrison Schramm, Mosaic Warfare: Exploiting Artificial Intelligence and Autonomous Systems to Implement Decision-Centric Operations (Washington, DC: Center for Strategic and Budgetary Assessments, 2020), https://csbaonline.org/research/publications/mosaic-warfare-exploiting-artificial-intelligence-and-autonomous-systems-to-implement-decision-centric-operations; DARPA, “Strategic Technology Office Outlines Vision for ‘Mosaic Warfare.’”
[6] Timothy R. Gulden, Jonathan Lamb, Jeff Hagen, and Nicholas A. O’Donoughue, Modeling Rapidly Composable, Heterogeneous, and Fractionated Forces: Findings on Mosaic Warfare from an Agent-Based Model (Santa Monica, CA: RAND Corporation, 2021), https://www.rand.org/pubs/research_reports/RR4396.html; Bryan Clark, Dan Patt, and Harrison Schramm, Mosaic Warfare: Exploiting Artificial Intelligence and Autonomous Systems to Implement Decision-Centric Operations (Washington, DC: Center for Strategic and Budgetary Assessments, 2020), https://csbaonline.org/research/publications/mosaic-warfare-exploiting-artificial-intelligence-and-autonomous-systems-to-implement-decision-centric-operations; Heather R. Penney, Scale, Scope, Speed & Survivability: Winning the Kill Chain Competition, Mitchell Institute Policy Paper 40 (Arlington, VA: Mitchell Institute for Aerospace Studies, May 2023), https://www.mitchellaerospacepower.org/scale-scope-speed-survivability-winning-the-kill-chain-competition/.
[7] Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024; Bryan Clark, Daniel Patt, and Harrison Schramm, Mosaic Warfare: Exploiting Artificial Intelligence and Autonomous Systems to Implement Decision-Centric Operations (Washington, DC: Center for Strategic and Budgetary Assessments, 2020), https://csbaonline.org/research/publications/mosaic-warfare-exploiting-artificial-intelligence-and-autonomous-systems-to-implement-decision-centric-operations; Heather R. Penney, Scale, Scope, Speed & Survivability: Winning the Kill Chain Competition, Mitchell Institute Policy Paper 40 (Arlington, VA: Mitchell Institute for Aerospace Studies, May 2023), https://www.mitchellaerospacepower.org/scale-scope-speed-survivability-winning-the-kill-chain-competition/; Sun Zhangjun, Tang Qiang, and Li Hao, “Cooperative Control and Management for UAS in Distributed Dynamic Kill Web,” in Proceedings of 2023 Chinese Intelligent Systems Conference, ed. Yingmin Jia, Weicun Zhang, Yongling Fu, and Jiqiang Wang (Singapore: Springer, 2023), 729–30, https://doi.org/10.1007/978-981-99-6882-4_60; Ashley Ruiz, “The Future of War: Kill-Chain Supremacy and Ukraine’s Lessons,” Journal of Strategic Security 18, no. 4 (2025): 53–63, https://doi.org/10.5038/1944-0472.18.4.2592; Nicholas A. O’Donoughue, Samantha McBirney, and Brian Persons, Distributed Kill Chains: Drawing Insights for Mosaic Warfare from the Immune System and from the Navy (Santa Monica, CA: RAND Corporation, 2021), https://www.rand.org/pubs/research_reports/RRA573-1.html.
[8] Ben Zweibelson, Beyond the Pale: Designing Military Decision-Making Anew (Maxwell AFB, AL: Air University Press, 2023), https://www.airuniversity.af.edu/Portals/10/AUPress/Books/B_181_Zweibelson_Beyond_the_Pale_.pdf.
[9] Bo Yu, Huachun Tan, Yanan Zhao, Bin Xu, and Yifan Dong, “Preliminary Analysis of the Structure of Land Unmanned Combat Systems Based on Mosaic Warfare,” in Proceedings of 2025 13th China Conference on Command and Control, vol. 1517 of Lecture Notes in Electrical Engineering (Singapore: Springer, 2026), 397–410, https://doi.org/10.1007/978-981-95-5021-0_33.
[10] Bryan Clark, Daniel Patt, and Harrison Schramm, Mosaic Warfare: Exploiting Artificial Intelligence and Autonomous Systems to Implement Decision-Centric Operations (Washington, DC: Center for Strategic and Budgetary Assessments, 2020), https://csbaonline.org/research/publications/mosaic-warfare-exploiting-artificial-intelligence-and-autonomous-systems-to-implement-decision-centric-operations; Bryan Clark, “The Emergence of Decision-Centric Warfare,” in Technological Innovation and Security: The Impact on the Strategic Environment in East Asia, NIDS International Symposium on Security Affairs 2021 (Tokyo: National Institute for Defense Studies, September 2022), 17–32, https://www.nids.mod.go.jp/event/proceedings/symposium/pdf/2021/e_01.pdf; Bryan Clark, Dan Patt, and Timothy A. Walton, Implementing Decision-Centric Warfare: Elevating Command and Control to Gain an Optionality Advantage (Washington, DC: Hudson Institute, 2021), https://www.hudson.org/national-security-defense/implementing-decision-centric-warfare-elevating-command-and-control-to-gain-an-optionality-advantage.
[11] Stew Magnuson, “DARPA Tiles Together a Vision of Mosaic Warfare,” DARPA, 2018, https://www.darpa.mil/news/features/mosaic-warfare; Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024; Bryan Clark, Daniel Patt, and Harrison Schramm, Mosaic Warfare: Exploiting Artificial Intelligence and Autonomous Systems to Implement Decision-Centric Operations (Washington, DC: Center for Strategic and Budgetary Assessments, 2020), https://csbaonline.org/research/publications/mosaic-warfare-exploiting-artificial-intelligence-and-autonomous-systems-to-implement-decision-centric-operations; Bryan Clark, “The Emergence of Decision-Centric Warfare,” in Technological Innovation and Security: The Impact on the Strategic Environment in East Asia, NIDS International Symposium on Security Affairs 2021 (Tokyo: National Institute for Defense Studies, September 2022), 17–32, https://www.nids.mod.go.jp/event/proceedings/symposium/pdf/2021/e_01.pdf; Bryan Clark, Dan Patt, and Timothy A. Walton, Implementing Decision-Centric Warfare: Elevating Command and Control to Gain an Optionality Advantage (Washington, DC: Hudson Institute, March 2021), https://www.hudson.org/national-security-defense/implementing-decision-centric-warfare-elevating-command-and-control-to-gain-an-optionality-advantage.
[12] Bo Yu, Huachun Tan, Yanan Zhao, Bin Xu, and Yifan Dong, “Preliminary Analysis of the Structure of Land Unmanned Combat Systems Based on Mosaic Warfare,” in Proceedings of 2025 13th China Conference on Command and Control, vol. 1517 of Lecture Notes in Electrical Engineering (Singapore: Springer, 2026), 397–410, https://doi.org/10.1007/978-981-95-5021-0_33.
[13] Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024; Bo Yu, Huachun Tan, Yanan Zhao, Bin Xu, and Yifan Dong, “Preliminary Analysis of the Structure of Land Unmanned Combat Systems Based on Mosaic Warfare,” in Proceedings of 2025 13th China Conference on Command and Control, vol. 1517 of Lecture Notes in Electrical Engineering (Singapore: Springer, 2026), 397–410, https://doi.org/10.1007/978-981-95-5021-0_33; Jack Watling, The Arms of the Future: Technology and Close Combat in the Twenty-First Century (London: Bloomsbury Academic, 2023); Jack Watling, Supporting Command and Control for Land Forces on a Data-Rich Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, July 2023), https://static.rusi.org/Supporting-command-and-control-for-land-forces-on-a-data-rich-battlefield.pdf; Michael Mayer, “Trusting Machine Intelligence: Artificial Intelligence and Human-Autonomy Teaming in Military Operations,” Defense and Security Analysis 39, no. 4 (2023): 521–38, https://doi.org/10.1080/14751798.2023.2264070; Sidharth Kaushal, Justin Lynch, Juliana Suess, Jung-Ju Lee, Luke Vannurden, and Ylber Bajraktari, Leveraging Human–Machine Teaming, RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, January 2024), https://static.rusi.org/human-machine-teaming-sr-jan-2024.pdf.
[14] Jack Watling, The Arms of the Future: Technology and Close Combat in the Twenty-First Century (London: Bloomsbury Academic, 2023); Jack Watling, Supporting Command and Control for Land Forces on a Data-Rich Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, July 27, 2023), https://www.rusi.org/explore-our-research/publications/occasional-papers/supporting-command-and-control-land-forces-data-rich-battlefield.
[15] Seth G. Jones, “Russia’s Ill-Fated Invasion of Ukraine: Lessons in Modern Warfare” (Washington, DC: Center for Strategic and International Studies, June 1, 2022), https://www.csis.org/analysis/russias-ill-fated-invasion-ukraine-lessons-modern-warfare; Mykhaylo Zabrodskyi, Jack Watling, Oleksandr V. Danylyuk, and Nick Reynolds, Preliminary Lessons in Conventional Warfighting from Russia’s Invasion of Ukraine: February–July 2022, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, November 30, 2022), https://www.rusi.org/explore-our-research/publications/special-resources/preliminary-lessons-conventional-warfighting-russias-invasion-ukraine-february-july-2022.
[16] Seth G. Jones, “Russia’s Ill-Fated Invasion of Ukraine: Lessons in Modern Warfare” (Washington, DC: Center for Strategic and International Studies, June 1, 2022), https://www.csis.org/analysis/russias-ill-fated-invasion-ukraine-lessons-modern-warfare; Mykhaylo Zabrodskyi, Jack Watling, Oleksandr V. Danylyuk, and Nick Reynolds, Preliminary Lessons in Conventional Warfighting from Russia’s Invasion of Ukraine: February–July 2022, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, November 30, 2022), https://www.rusi.org/explore-our-research/publications/special-resources/preliminary-lessons-conventional-warfighting-russias-invasion-ukraine-february-july-2022.
[17] Mykhaylo Zabrodskyi, Jack Watling, Oleksandr V. Danylyuk, and Nick Reynolds, Preliminary Lessons in Conventional Warfighting from Russia’s Invasion of Ukraine: February–July 2022, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, November 30, 2022), https://www.rusi.org/explore-our-research/publications/special-resources/preliminary-lessons-conventional-warfighting-russias-invasion-ukraine-february-july-2022.
[18] Kateryna Stepanenko, Karolina Hird, Grace Mappes, and Frederick W. Kagan, “Russian Offensive Campaign Assessment, September 11, 2022,” Institute for the Study of War, September 11, 2022, https://understandingwar.org/research/russia-ukraine/russian-offensive-campaign-assessment_88.
[19] Jack Watling and Nick Reynolds, Meatgrinder: Russian Tactics in the Second Year of Its Invasion of Ukraine, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, May 19, 2023), https://www.rusi.org/explore-our-research/publications/special-resources/meatgrinder-russian-tactics-second-year-its-invasion-ukraine; Mark Hvizda, Bryan Frederick, Alisa Laufer, Alexandra T. Evans, Kristen Gunness, and David A. Ochmanek, Dispersed, Disguised, and Degradable: The Implications of the Fighting in Ukraine for Future U.S.-Involved Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA3141-2.html; Jack Watling and Nick Reynolds, Stormbreak: Fighting Through Russian Defences in Ukraine’s 2023 Offensive, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, September 4, 2023), https://www.rusi.org/explore-our-research/publications/special-resources/stormbreak-fighting-through-russian-defences-ukraines-2023-offensive.
[20] Jack Watling and Nick Reynolds, Meatgrinder: Russian Tactics in the Second Year of Its Invasion of Ukraine, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, May 19, 2023), https://www.rusi.org/explore-our-research/publications/special-resources/meatgrinder-russian-tactics-second-year-its-invasion-ukraine; Mark Hvizda, Bryan Frederick, Alisa Laufer, Alexandra T. Evans, Kristen Gunness, and David A. Ochmanek, Dispersed, Disguised, and Degradable: The Implications of the Fighting in Ukraine for Future U.S.-Involved Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA3141-2.html; Jack Watling and Nick Reynolds, Stormbreak: Fighting Through Russian Defences in Ukraine’s 2023 Offensive, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, September 4, 2023), https://www.rusi.org/explore-our-research/publications/special-resources/stormbreak-fighting-through-russian-defences-ukraines-2023-offensive.
[21] Jack Watling and Nick Reynolds, Meatgrinder: Russian Tactics in the Second Year of Its Invasion of Ukraine, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, May 19, 2023), https://www.rusi.org/explore-our-research/publications/special-resources/meatgrinder-russian-tactics-second-year-its-invasion-ukraine.
[22] See Jack Watling, The Arms of the Future: Technology and Close Combat in the Twenty-First Century (London: Bloomsbury Academic, 2023); Jack Watling, Supporting Command and Control for Land Forces on a Data-Rich Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, July 27, 2023), https://www.rusi.org/explore-our-research/publications/occasional-papers/supporting-command-and-control-land-forces-data-rich-battlefield.
[23] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 2026), https://www.ifri.org/sites/default/files/2026-02/ifri_tenenbaum_et_al_miltech_war_ukraine_2026_0.pdf; Stacie Pettyjohn, Evolution Not Revolution: Drone Warfare in Russia’s 2022 Invasion of Ukraine (Washington, DC: Center for a New American Security, February 8, 2024), https://www.cnas.org/publications/reports/evolution-not-revolution; Frederick W. Kagan, Kimberly Kagan, Mason Clark, Karolina Hird, Nataliya Bugayova, Kateryna Stepanenko, Riley Bailey, and George Barros, Ukraine and the Problem of Restoring Maneuver in Contemporary War (Washington, DC: Institute for the Study of War, August 12, 2024), https://understandingwar.org/wp-content/uploads/2025/05/Ukraine20and20the20Problem20of20Restoring20Maneuver20in20Contemporary20War_final.pdf.
[24] See Jack Watling, The Arms of the Future: Technology and Close Combat in the Twenty-First Century (London: Bloomsbury Academic, 2023); Jack Watling, Supporting Command and Control for Land Forces on a Data-Rich Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, July 27, 2023), https://www.rusi.org/explore-our-research/publications/occasional-papers/supporting-command-and-control-land-forces-data-rich-battlefield.
[25] Jack Watling and Nick Reynolds, Meatgrinder: Russian Tactics in the Second Year of Its Invasion of Ukraine, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, May 19, 2023), https://www.rusi.org/explore-our-research/publications/special-resources/meatgrinder-russian-tactics-second-year-its-invasion-ukraine; Oleksandra Molloy, Drones in Modern Warfare: Lessons Learnt from the War in Ukraine, Australian Army Occasional Paper 29 (Australian Army Research Centre, 2024), https://doi.org/10.61451/267513.
[26] Stacie Pettyjohn, Evolution Not Revolution: Drone Warfare in Russia’s 2022 Invasion of Ukraine (Washington, DC: Center for a New American Security, February 8, 2024), https://www.cnas.org/publications/reports/evolution-not-revolution; Frederick W. Kagan and Kimberly Kagan, with Mason Clark, Karolina Hird, Nataliya Bugayova, Kateryna Stepanenko, Riley Bailey, and George Barros, Ukraine and the Problem of Restoring Maneuver in Contemporary War (Washington, DC: Institute for the Study of War, August 2024), https://understandingwar.org/research/future-of-war/ukraine-and-the-problem-of-restoring-maneuver-in-contemporary-war/; Jack Watling, “Emergent Approaches to Combined Arms Manoeuvre in Ukraine,” RUSI Insights Paper (London: Royal United Services Institute for Defence and Security Studies, October 23, 2025), https://www.rusi.org/explore-our-research/publications/insights-papers/emergent-approaches-combined-arms-manoeuvre-ukraine; Tsiporah Fried, The Impact of Drones on the Battlefield: Lessons of the Russia-Ukraine War from a French Perspective (Washington, DC: Hudson Institute, November 13, 2025), https://www.hudson.org/missile-defense/impact-drones-battlefield-lessons-russian-ukraine-war-french-perspective-tsiporah-fried.
[27] Mark Hvizda, Bryan Frederick, Alisa Laufer, Alexandra T. Evans, Kristen Gunness, and David A. Ochmanek, Dispersed, Disguised, and Degradable: The Implications of the Fighting in Ukraine for Future U.S.-Involved Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA3141-2.html; Stacie Pettyjohn, Evolution Not Revolution: Drone Warfare in Russia’s 2022 Invasion of Ukraine (Washington, DC: Center for a New American Security, February 8, 2024), https://www.cnas.org/publications/reports/evolution-not-revolution.
[28] Frederick W. Kagan and Kimberly Kagan, with Mason Clark, Karolina Hird, Nataliya Bugayova, Kateryna Stepanenko, Riley Bailey, and George Barros, Ukraine and the Problem of Restoring Maneuver in Contemporary War (Washington, DC: Institute for the Study of War, August 12, 2024), https://understandingwar.org/research/future-of-war/ukraine-and-the-problem-of-restoring-maneuver-in-contemporary-war/; Tsiporah Fried, The Impact of Drones on the Battlefield: Lessons of the Russia-Ukraine War from a French Perspective (Washington, DC: Hudson Institute, November 13, 2025), https://www.hudson.org/missile-defense/impact-drones-battlefield-lessons-russian-ukraine-war-french-perspective-tsiporah-fried; Jack Watling and Nick Reynolds, “Tactical Developments During the Third Year of the Russo-Ukrainian War,” RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, February 14, 2025), https://www.rusi.org/explore-our-research/publications/special-resources/tactical-developments-during-third-year-russo-ukrainian-war; Perun, “Four Years of War in Ukraine—The Battlefield Balance, Losses & Counterattacks,” YouTube video, accessed March 6, 2026, https://www.youtube.com/watch?v=RXmQIkV3SzU.
[29] NATO, Russian War Against Ukraine Lessons Curriculum Guide (NATO Headquarters, 2023), https://nllp.jallc.nato.int/iks/sharing%20public/231208-ruswar-ukraine-lessons-curriculum.pdf; Jack Watling, “Emergent Approaches to Combined Arms Manoeuvre in Ukraine,” RUSI Insights Paper (London: Royal United Services Institute for Defence and Security Studies, October 23, 2025), https://www.rusi.org/explore-our-research/publications/insights-papers/emergent-approaches-combined-arms-manoeuvre-ukraine; Perun, “Four Years of War in Ukraine—The Battlefield Balance, Losses & Counterattacks,” YouTube video, accessed March 6, 2026, https://www.youtube.com/watch?v=RXmQIkV3SzU&t=1754s.
[30] Olena Bilousova, Kateryna Olkhovyk, and Lucas Risinger, From the Battlefield to the Future of Warfare: Harnessing Ukraine’s Drone Innovations to Advance U.S. Military Capabilities (Kyiv: KSE Institute, November 2025), https://kse.ua/about-the-school/news/from-the-battlefield-to-the-future-of-warfare-harnessing-ukraine-s-drone-innovations-to-advance-u-s-military-capabilities-kse-institute-report/.
[31] Jack Watling, “Emergent Approaches to Combined Arms Manoeuvre in Ukraine,” RUSI Insights Paper (London: Royal United Services Institute for Defence and Security Studies, October 23, 2025), https://www.rusi.org/explore-our-research/publications/insights-papers/emergent-approaches-combined-arms-manoeuvre-ukraine; Jack Watling and Nick Reynolds, “Tactical Developments During the Third Year of the Russo–Ukrainian War,” RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, February 14, 2025), https://www.rusi.org/explore-our-research/publications/special-resources/tactical-developments-during-third-year-russo-ukrainian-war; Perun, “Four Years of War in Ukraine—The Battlefield Balance, Losses & Counterattacks,” YouTube video, accessed March 6, 2026, https://www.youtube.com/watch?v=RXmQIkV3SzU.
[32] Perun, “Four Years of War in Ukraine—The Battlefield Balance, Losses & Counterattacks,” YouTube video, accessed March 12, 2026, https://www.youtube.com/watch?v=RXmQIkV3SzU.
[33] Thane C. Clare, A Navy of Necessity: Ukraine’s Unmanned Surface Vessels at War (Washington, DC: Center for Strategic and Budgetary Assessments, November 25, 2025), https://csbaonline.org/research/publications/a-navy-of-necessity-ukraines-unmanned-surface-vessels-at-war.
[34] Katie Livingstone, “Novel Interceptor Drones Bend Air-Defense Economics in Ukraine’s Favor,” Defense News, March 5, 2026, https://www.defensenews.com/global/europe/2026/03/05/novel-interceptor-drones-bend-air-defense-economics-in-ukraines-favor/.
[35] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Krzysztof Nieczypor and Sławomir Matuszak, “Game of Drones: The Production and Use of Ukrainian Battlefield Unmanned Aerial Vehicles,” OSW Commentary (Warsaw: Centre for Eastern Studies, October 14, 2025), https://www.osw.waw.pl/en/publikacje/osw-commentary/2025-10-14/game-drones-production-and-use-ukrainian-battlefield-unmanned.
[36] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/.
[37] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Olena Bilousova, Kateryna Olkhovyk, and Lucas Risinger, From the Battlefield to the Future of Warfare: Harnessing Ukraine’s Drone Innovations to Advance U.S. Military Capabilities (Kyiv: KSE Institute, November 2025), https://kse.ua/about-the-school/news/from-the-battlefield-to-the-future-of-warfare-harnessing-ukraine-s-drone-innovations-to-advance-u-s-military-capabilities-kse-institute-report/.
[38] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Dominika Kunertova, Learning from the Ukrainian Battlefield: Tomorrow’s Drone Warfare, Today’s Innovation Challenge (Zurich: Center for Security Studies, ETH Zürich, August 2024), https://doi.org/10.3929/ethz-b-000690448; Dominika Kunertova, “The War in Ukraine Shows the Game-Changing Effect of Drones Depends on the Game,” Bulletin of the Atomic Scientists 79, no. 2 (2023): 95–102, https://doi.org/10.1080/00963402.2023.2178180.
[39] Kateryna Bondar, Understanding the Military AI Ecosystem of Ukraine (Washington, DC: Center for Strategic and International Studies, November 12, 2024), https://www.csis.org/analysis/understanding-military-ai-ecosystem-ukraine; Stefan Soesanto, The Ukrainian Way of Digital Warfighting: Volunteers, Applications, and Intelligence Sharing Platforms (Zurich: Center for Security Studies, ETH Zürich, July 2024), https://doi.org/10.3929/ethz-b-000685245.
[40] David Zikusoka, “How Ukraine’s ‘Uber for Artillery’ Is Leading the Software War Against Russia,” New America, May 25, 2023, https://www.newamerica.org/insights/how-ukraines-uber-for-artillery-is-leading-the-software-war-against-russia/; Emily Beaudoin, Muhammad Najjar, Liberty Potter, Jack Shanley, Shawn Singh, and David Sweeterman, Commercialized Combat: Analyzing Wartime Applications of Non-Military Technologies in the War in Ukraine (New York: Columbia University School of International and Public Affairs, April 2023), https://www.sipa.columbia.edu/sites/default/files/2023-05/For_Publication_NSIN_Bonfili.pdf.
[41] Stefan Soesanto, The Ukrainian Way of Digital Warfighting: Volunteers, Applications, and Intelligence Sharing Platforms (Zurich: Center for Security Studies, ETH Zürich, July 2024), https://doi.org/10.3929/ethz-b-000685245.
[42] Nick Ducich, Nathan Minami, Ryan Riggin, and Jacob Austin, “Transformative Staff Training in Ukraine,” Military Review 96, no. 6 (November–December 2016): 44–51; Lea Ellmanns, Oleksiy Melnyk, and Wolf-Christian Paes, Transformation Under Fire: An Analysis of Ukraine’s Security Sector Since 1991 (London: International Institute for Strategic Studies, January 17, 2025), https://www.iiss.org/research-paper/2025/transformation-under-fire-an-analysis-of-ukraines–security-sector-since-1991/; Deborah Sanders, “Ukraine’s Third Wave of Military Reform 2016–2022—Building a Military Able to Defend Ukraine against the Russian Invasion,” Defense and Security Analysis 39, no. 3 (2023): 312–28, https://doi.org/10.1080/14751798.2023.2201017.
[43] Nick Ducich, Nathan Minami, Ryan Riggin, and Jacob Austin, “Transformative Staff Training in Ukraine,” Military Review 96, no. 6 (November–December 2016): 44–51, https://www.armyupress.army.mil/Journals/Military-Review/English-Edition-Archives/November-December-2016/; Thomas-Durell Young, “Legacy Concepts: A Sociology of Command in Central and Eastern Europe,” Parameters 47, no. 1 (2017), https://doi.org/10.55540/0031-1723.2834.
[44] Lea Ellmanns, Oleksiy Melnyk, and Wolf-Christian Paes, Transformation Under Fire: An Analysis of Ukraine’s Security Sector Since 1991 (London: International Institute for Strategic Studies, January 17, 2025), https://www.iiss.org/research-paper/2025/transformation-under-fire-an-analysis-of-ukraines–security-sector-since-1991/; Mykhaylo Zabrodskyi, Jack Watling, Oleksandr V. Danylyuk, and Nick Reynolds, Preliminary Lessons in Conventional Warfighting from Russia’s Invasion of Ukraine: February–July 2022, RUSI Special Report (London: Royal United Services Institute for Defence and Security Studies, November 30, 2022), https://www.rusi.org/explore-our-research/publications/special-resources/preliminary-lessons-conventional-warfighting-russias-invasion-ukraine-february-july-2022; Deborah Sanders, “Ukraine’s Third Wave of Military Reform 2016–2022—Building a Military Able to Defend Ukraine against the Russian Invasion,” Defense and Security Analysis 39, no. 3 (2023): 312–28, https://doi.org/10.1080/14751798.2023.2201017.
[45] Jack Watling and Nick Reynolds, “Tactical Developments During the Third Year of the Russo–Ukrainian War,” RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, February 14, 2025), https://www.rusi.org/explore-our-research/publications/special-resources/tactical-developments-during-third-year-russo-ukrainian-war; Lea Ellmanns, Oleksiy Melnyk, and Wolf-Christian Paes, Transformation Under Fire: An Analysis of Ukraine’s Security Sector Since 1991 (London: International Institute for Strategic Studies, January 17, 2025), https://www.iiss.org/research-paper/2025/transformation-under-fire-an-analysis-of-ukraines–security-sector-since-1991/; Dominika Kunertova, Learning from the Ukrainian Battlefield: Tomorrow’s Drone Warfare, Today’s Innovation Challenge (Zurich: Center for Security Studies, ETH Zürich, August 2024), https://doi.org/10.3929/ethz-b-000690448.
[46] Jack Watling and Nick Reynolds, “Tactical Developments During the Third Year of the Russo–Ukrainian War,” RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, February 14, 2025), https://www.rusi.org/explore-our-research/publications/special-resources/tactical-developments-during-third-year-russo-ukrainian-war; Lea Ellmanns, Oleksiy Melnyk, and Wolf-Christian Paes, Transformation Under Fire: An Analysis of Ukraine’s Security Sector Since 1991 (London: International Institute for Strategic Studies, January 17, 2025), https://www.iiss.org/research-paper/2025/transformation-under-fire-an-analysis-of-ukraines–security-sector-since-1991/; Dominika Kunertova, Learning from the Ukrainian Battlefield: Tomorrow’s Drone Warfare, Today’s Innovation Challenge (Zurich: Center for Security Studies, ETH Zürich, August 2024), https://doi.org/10.3929/ethz-b-000690448.
[47] Viktor Putrenko and Nataliia Pashynska, “Military Situation Awareness: Ukrainian Experience,” Applied Cybersecurity and Internet Governance 3, no. 1 (2024): 122–46, https://doi.org/10.60097/ACIG/190341; Lt. Col. Garrett M. Searle, “Tactical Reconnaissance Strike in Ukraine: A Mandate for the U.S. Army,” Infantry, Spring 2025, 38–45, https://www.lineofdeparture.army.mil/Portals/144/PDF/Journals/Infantry/Infantry-Spring-2025/tactical%20recon.pdf.
[48] Jack Watling and Nick Reynolds, “Tactical Developments During the Third Year of the Russo–Ukrainian War,” RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, February 14, 2025), https://www.rusi.org/explore-our-research/publications/special-resources/tactical-developments-during-third-year-russo-ukrainian-war; Kateryna Bondar, Understanding the Military AI Ecosystem of Ukraine (Washington, DC: Center for Strategic and International Studies, November 12, 2024), https://www.csis.org/analysis/understanding-military-ai-ecosystem-ukraine.
[49] Tim Sweijs, Elie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Federico Borsari and Gordon B. “Skip” Davis Jr., An Urgent Matter of Drones (Washington, DC: Center for European Policy Analysis, September 27, 2023), https://cepa.org/comprehensive-reports/an-urgent-matter-of-drones/; Kateryna Bondar, Unleashing U.S. Military Drone Dominance: What the United States Can Learn from Ukraine (Washington, DC: Center for Strategic and International Studies, July 18, 2025), https://www.csis.org/analysis/unleashing-us-military-drone-dominance-what-united-states-can-learn-ukraine.
[50] Kateryna Bondar, Ukraine’s Future Vision and Current Capabilities for Waging AI-Enabled Autonomous Warfare (Washington, DC: Center for Strategic and International Studies, March 6, 2025), https://www.csis.org/analysis/ukraines-future-vision-and-current-capabilities-waging-ai-enabled-autonomous-warfare; Federico Borsari and Gordon B. “Skip” Davis Jr., An Urgent Matter of Drones (Washington, DC: Center for European Policy Analysis, September 27, 2023), https://cepa.org/comprehensive-reports/an-urgent-matter-of-drones/; Robert Tollast, Drones: Decoupling Supply Chains from China, RUSI Research Paper (London: Royal United Services Institute for Defence and Security Studies, November 18, 2025), https://static.rusi.org/rp-drone-supply-chains-china-nov-2025_0.pdf.
[51] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Andrew Radin, Khrystyna Holynska, Cheyenne Tretter, and Thomas Van Bibber, Lessons from the War in Ukraine for Space: Challenges and Opportunities for Future Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA2950-1.html; NATO Allied Command Transformation, “Battlefield Innovation: Ukraine’s DELTA System Paves the Way for Allied Interoperability at CWIX24,” July 12, 2024, https://www.act.nato.int/article/delta-system-cwix/.
[52] Stefan Soesanto, The Ukrainian Way of Digital Warfighting: Volunteers, Applications, and Intelligence Sharing Platforms (Zurich: Center for Security Studies, ETH Zürich, July 2024), https://doi.org/10.3929/ethz-b-000685245; Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Viktor Putrenko and Nataliia Pashynska, “Military Situation Awareness: Ukrainian Experience,” Applied Cybersecurity and Internet Governance 3, no. 1 (2024): 122–46, https://doi.org/10.60097/ACIG/190341.
[53] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Andrew Radin, Khrystyna Holynska, Cheyenne Tretter, and Thomas Van Bibber, Lessons from the War in Ukraine for Space: Challenges and Opportunities for Future Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA2950-1.html.
[54] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Andrew Radin, Khrystyna Holynska, Cheyenne Tretter, and Thomas Van Bibber, Lessons from the War in Ukraine for Space: Challenges and Opportunities for Future Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA2950-1.html.
[55] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield.
[56] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Andrew Radin, Khrystyna Holynska, Cheyenne Tretter, and Thomas Van Bibber, Lessons from the War in Ukraine for Space: Challenges and Opportunities for Future Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA2950-1.html; Thomas Withington, “Jamming JDAM: The Threat to US Munitions from Russian Electronic Warfare,” RUSI Commentary, June 6, 2023, https://www.rusi.org/explore-our-research/publications/commentary/jamming-jdam-threat-us-munitions-russian-electronic-warfare.
[57] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Andrew Radin, Khrystyna Holynska, Cheyenne Tretter, and Thomas Van Bibber, Lessons from the War in Ukraine for Space: Challenges and Opportunities for Future Conflicts (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA2950-1.html; Thomas Withington, “Jamming JDAM: The Threat to US Munitions from Russian Electronic Warfare,” RUSI Commentary, June 6, 2023, https://www.rusi.org/explore-our-research/publications/commentary/jamming-jdam-threat-us-munitions-russian-electronic-warfare.
[58] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; NATO Allied Command Transformation, “Battlefield Innovation: Ukraine’s DELTA System Paves the Way for Allied Interoperability at CWIX24,” July 12, 2024, https://www.act.nato.int/article/delta-system-cwix/; Stefan Soesanto, The Ukrainian Way of Digital Warfighting: Volunteers, Applications, and Intelligence Sharing Platforms (Zurich: Center for Security Studies, ETH Zürich, July 2024), https://doi.org/10.3929/ethz-b-000685245.
[59] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/.
[60] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/.
[61] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield.
[62] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield.
[63] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield.
[64] Department of Defense, Office of Systems Engineering and Architecture, Office of the Under Secretary of Defense for Research and Engineering, Implementing a Modular Open Systems Approach in Department of Defense Programs (Washington, DC: Department of Defense, February 2025), https://www.cto.mil/wp-content/uploads/2025/03/MOSA-Implementation-Guidebook-27Feb2025-Cleared.pdf.
[65] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; NATO Allied Command Transformation, “Battlefield Innovation: Ukraine’s DELTA System Paves the Way for Allied Interoperability at CWIX24,” July 12, 2024, https://www.act.nato.int/article/delta-system-cwix/.
[66] Timothy P. Grayson and Samuele Lilliu, “Mosaic Warfare and Human–Machine Symbiosis,” Scientific Video Protocols 1, no. 1 (January 24, 2021): 1–12, https://doi.org/10.32386/scivpro.000024.
[67] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield.
[68] Stuart Dee, Katja Fedina, Kiran Suman-Chauhan, Evie Graham, Daniel Hill, Andrew Gibson, John Kendall, and John Foreman, Lessons Learned: Understanding the Role of Military Organisational and Adaptation Culture for the Future of Ukraine’s Defence (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA3833-5.html.
[69] Sebastian Nannt and Hendrik Remmel, Innovation and Adaptability as Key Factors for Military Success: Strategic Insights from the Russia-Ukraine War, GIDSresearch no. 6 (Hamburg: German Institute for Defence and Strategic Studies, 2024), https://gids-hamburg.de/wp-content/uploads/2025/10/GIDSresearch2024_06_RemmelNannt_engl_250306.pdf.
[70] Stuart Dee, Katja Fedina, Kiran Suman-Chauhan, Evie Graham, Daniel Hill, Andrew Gibson, John Kendall, and John Foreman, Lessons Learned: Understanding the Role of Military Organisational and Adaptation Culture for the Future of Ukraine’s Defence (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA3833-5.html.
[71] Jack Watling, “Emergent Approaches to Combined Arms Manoeuvre in Ukraine,” RUSI Insights Paper (London: Royal United Services Institute for Defence and Security Studies, October 23, 2025), https://www.rusi.org/explore-our-research/publications/insights-papers/emergent-approaches-combined-arms-manoeuvre-ukraine; NATO, Russian War Against Ukraine Lessons Curriculum Guide (NATO Headquarters, 2023), https://nllp.jallc.nato.int/iks/sharing%20public/231208-ruswar-ukraine-lessons-curriculum.pdf; Stuart Dee, Katja Fedina, Kiran Suman-Chauhan, Evie Graham, Daniel Hill, Andrew Gibson, John Kendall, and John Foreman, Lessons Learned: Understanding the Role of Military Organisational and Adaptation Culture for the Future of Ukraine’s Defence (Santa Monica, CA: RAND Corporation, 2025), https://www.rand.org/pubs/research_reports/RRA3833-5.html; Sebastian Nannt and Hendrik Remmel, Innovation and Adaptability as Key Factors for Military Success: Strategic Insights from the Russia-Ukraine War, GIDSresearch no. 6 (Hamburg: German Institute for Defence and Strategic Studies, 2024), https://gids-hamburg.de/wp-content/uploads/2025/10/GIDSresearch2024_06_RemmelNannt_engl_250306.pdf.
[72] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Robert Tollast, Drones: Decoupling Supply Chains from China, RUSI Research Paper (London: Royal United Services Institute for Defence and Security Studies, November 18, 2025), https://static.rusi.org/rp-drone-supply-chains-china-nov-2025_0.pdf; Jack Watling and Si Horne, Assuring the Tactical Sustainment of Land Forces on the Modern Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, April 16, 2024), https://static.rusi.org/sustaining-land-forces-final-proof.pdf.
[73] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Federico Borsari and Gordon B. “Skip” Davis Jr., An Urgent Matter of Drones (Washington, DC: Center for European Policy Analysis, September 27, 2023), https://cepa.org/comprehensive-reports/an-urgent-matter-of-drones/; Jack Watling and Si Horne, Assuring the Tactical Sustainment of Land Forces on the Modern Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, April 16, 2024), https://static.rusi.org/sustaining-land-forces-final-proof.pdf; Stuart Dee, Katja Fedina, Kiran Suman-Chauhan, Evie Graham, Daniel Hill, and Andrew Gibson, Looking Ahead: Enablers of Innovation and Scale for the Future of Ukraine’s Defence-Industrial Base (Santa Monica, CA: RAND Corporation, December 4, 2025), https://www.rand.org/pubs/research_reports/RRA3833-6.html.
[74] Jack Watling and Nick Reynolds, “Tactical Developments During the Third Year of the Russo–Ukrainian War,” RUSI Special Resources (London: Royal United Services Institute for Defence and Security Studies, February 14, 2025), https://www.rusi.org/explore-our-research/publications/special-resources/tactical-developments-during-third-year-russo-ukrainian-war; Jack Watling and Si Horne, Assuring the Tactical Sustainment of Land Forces on the Modern Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, April 16, 2024), https://static.rusi.org/sustaining-land-forces-final-proof.pdf.
[75] Bohdan Kostiuk, Daryna-Maryna Patiuk, Anastasiya Shapochkina, and Élie Tenenbaum, Mapping the MilTech War: Eight Lessons from Ukraine’s Battlefield, Focus Stratégique no. 132 (Paris: Ifri, February 12, 2026), https://www.ifri.org/en/studies/mapping-miltech-war-eight-lessons-ukraines-battlefield; Robert Tollast, Drones: Decoupling Supply Chains from China, RUSI Research Paper (London: Royal United Services Institute for Defence and Security Studies, November 18, 2025), https://static.rusi.org/rp-drone-supply-chains-china-nov-2025_0.pdf; Stuart Dee, Katja Fedina, Kiran Suman-Chauhan, Evie Graham, Daniel Hill, and Andrew Gibson, Looking Ahead: Enablers of Innovation and Scale for the Future of Ukraine’s Defence-Industrial Base (Santa Monica, CA: RAND Corporation, December 4, 2025), https://www.rand.org/pubs/research_reports/RRA3833-6.html; Vincent Tourret, Design, Destroy, Dominate: The Mass Drone Warfare as a Potential Military Revolution, Ifri Papers (Paris: Ifri, June 2025), https://www.ifri.org/sites/default/files/2025-06/ifri_tourret_drone_warfare_2025.pdf.
[76] Tim Sweijs, Élie Tenenbaum, and Jan Feldhusen, Lessons from the Jungle for the Zoo: Support Ukraine, Help Ourselves | Key Findings Ukraine Visit (The Hague: The Hague Centre for Strategic Studies, February 5, 2026), https://hcss.nl/report/lessons-from-the-jungle-for-the-zoo/; Jack Watling and Si Horne, Assuring the Tactical Sustainment of Land Forces on the Modern Battlefield, RUSI Occasional Paper (London: Royal United Services Institute for Defence and Security Studies, April 16, 2024), https://static.rusi.org/sustaining-land-forces-final-proof.pdf.
本文编译自美智库战略与国际研究中心(CSIS)于2026年6约2日发布的文章,文中介绍了美国国防部旗舰人工智能作战平台Maven智能系统(MSS)。该系统源于“Maven项目”,旨在整合多源情报数据,利用计算机视觉与大语言模型等技术,实现目标自动识别、分析及打击链加速,极大提升了战场决策效率。Palantir为主要软件集成商,并曾与Anthropic合作提供大语言模型能力。目前,MSS已成为美国推进联合全域指挥与控制(CJADC2)战略的核心组成部分,其未来发展聚焦于更深度的整合与制度化。
在伊朗战争的头24小时内,美国使用Maven智能系统(MSS)协助打击了超过1000个目标,这比MSS时代之前的打击能力提高了十倍。然而,除了参与创建和使用MSS的政府及承包商生态系统内部人员外,外界很少有人熟悉它是什么、如何运作,以及它如何实现军事情报与目标定位的革命性能力。
幸运的是,结合新旧公开及非机密信息来源,现在可以对MSS有一个更为全面的了解。政府和行业合作伙伴正在前所未有地分享关于该平台的信息,包括通过视频演示其能力。同时,卡特里娜·曼森最近出版的著作《Maven项目:一位海军陆战队上校、他的团队与人工智能战争的黎明》收录了对关键利益相关者的采访,其中许多人在不久前还守口如瓶。多家新闻媒体对伊朗战争的报道也揭示了新的细节。
以下分析整合并梳理了这些信息,以回答关于Maven智能系统及其在国防部(DOD)未来的六个关键问题。
A1:MSS是“Maven项目”的成果。“Maven项目”是五角大楼于2017年发起的一项倡议,旨在为作战人员提供人工智能能力。该项目早期历史颇为动荡:谷歌曾是早期的技术合作伙伴,但在2018年因员工抗议公司参与军事人工智能开发而退出。数据集成与分析公司Palantir随后不久介入,并一直是“Maven项目”的主要行业合作伙伴。该公司在2025年5月获得的国防部“Maven项目”合同上限已超过10亿美元,MSS相关工作于2025年秋季被纳入该特定合同。
因此,“Maven项目”指的是当前的国防部项目,它包含许多其他工作线和人工智能活动——例如人工智能赋能自动目标识别(ATR)——而不仅仅是MSS。“MSS”指的是国防部旗舰的人工智能赋能软件平台,它汇集了包括“Maven项目”ATR在内的众多数据源。Palantir是MSS的主要软件集成商,并在战略与国际研究中心审阅的一份未公开文件中声明:“MSS由Palantir平台驱动。”
MSS已被参谋长联席会议、作战司令部、国防部及情报界各部门,以及北约盟国使用。Palantir声称,两年多来,MSS的用户基数每六个月翻一番。据报道,2025年5月MSS拥有超过20,000名用户,这意味着目前的用户基数大约为80,000人。
MSS为军事情报和目标定位目的提供了一个图形用户界面(GUI),并拥有越来越多的联合全域指挥与控制(CJADC2)功能。正如未公开的Palantir文件所述:“MSS界面共享一个实时同步的战场视图,为作战人员和决策者提供实时理解,以支持整体的CJADC2任务。”MSS用户界面还允许用户分配任务,并对其他“Maven项目”人工智能系统完成的人工智能标注进行人工验证。实际上,这意味着使用MSS可以加快目标决策速度,同时不牺牲分析的严谨性或判断质量。
该平台聚合、组织和可视化海量的情报、监视与侦察(ISR)数据流。根据曼森的报道,美国中央司令部在2024年部署MSS时使用了179个不同的数据源,行业消息人士告诉战略与国际研究中心,此后这一数字已显著增加。人工智能模型(包括来自其他“Maven项目”数据源的模型)识别这些数据中的模式,并由MSS进行可视化展示。例如,计算机视觉模型在实时卫星或无人机视频流中发现并标记潜在目标,然后这些目标会以黄色方框的形式出现在用户屏幕上。
MSS还将工作流程直接嵌入该界面,使操作员无需切换系统即可从观察转向行动。国防部的公开演示显示,在目标定位场景中,用户可以选择人工智能检测到的目标,评估附近可用的打击资产,并使用诸如打击时间、距离和燃料需求等作战约束条件来比较选项。一旦选定资产,用户可以下令打击,并随后利用ISR数据流监控打击效果。 Palantir关于MSS的文件提供了六项具体基线能力的非详尽列表:
• 战场管理
• 目标管理
• 人工智能赋能的周密计划与执行
• 计算机视觉检测
• 机器辅助披露
• 生成式人工智能
过去十年间,“Maven项目”和MSS的监管职责在五角大楼内部几经转移。“Maven项目”最初隶属于负责情报与安全的国防部副部长办公室,之后拜登政府于2022年将职责拆分给国家地理空间情报局(NGA)和首席数字与人工智能办公室(CDAO)。在此配置下,CDAO支付MSS的许可费用并管理其基于文本的功能,而NGA则处理地理空间情报工作,包括计算机视觉模型的开发。2026年3月,国防部副部长史蒂夫·范伯格的一份备忘录下令将MSS的监管职责完全转移至CDAO,本文将在Q6中更深入地讨论这一决定。
A2:过去几十年间,三个主要问题一直困扰着五角大楼,并拖慢了其快速打击正确目标的能力。MSS的人工智能能力和图形用户界面在解决这些问题方面产生了重大影响。
在伊拉克和阿富汗战争期间,空中无人机监视无处不在,但摄像头的数量始终超过可用的训练有素的分析师。在某些情况下,无人机全天候收集的影像完全未经审查。
虽然关于“Maven项目”之前军事状况的精确数据并未公开,但商业卫星遥感公司Maxar Technologies的一个例子说明了问题的规模:2022年,Maxar的首席技术官告诉战略与国际研究中心,仅Maxar卫星一天产生的影像,就需要一名分析师花费85年才能审阅完毕,而自那以后,Maxar在轨侦察卫星的数量已大幅增加。国防部的无人机和卫星收集的数据量远超Maxar。
MSS通过使用人工智能进行初步分析并标记感兴趣的目标来解决这个问题,使分析师能够将注意力集中在最关键的地方。像计算图像中车辆或人数这样的任务可以基本实现自动化。虽然人类分析师仍需负责审查和验证人工智能生成的标签,但MSS使这一过程变得快速而直接。
与目标决策可能相关的传感器类型范围广泛——包括无人机视频、合成孔径雷达、地基雷达、信号情报和文件等——其中许多平台采用自定义数据格式构建,彼此之间不易通信。在MSS出现之前,分析师可能需要查阅多个互不关联系统的输出,包括来自不同地点终端的实际打印件。MSS用一个单一的、基于地图的界面取代了这一切,该界面融合了所有可用来源,使得在不同传感器类型之间轻松切换而无需离开平台成为可能。
在MSS之前,聚合相关数据源是分析师时间的主要负担。曾担任“Maven项目”创始主任的退役海军陆战队上校德鲁·库科尔在2026年3月的一次采访中表示:“在这些技术出现之前的世界里,人类需要费力拼凑所有这些[数据]点,从中理出头绪,而我们实际上只花了大约3%的时间进行分析,因为97%的时间都只是为了把这些该死的数据凑在一起。”
有效的目标决策需要的不仅仅是传感器数据。决策者还需要了解该地区所有友军和平民的位置、能力和限制。MSS将这些信息整合到同一个界面中,并将其与一个推荐算法配对,该算法可以为给定的打击提出候选资产并进行排序,并允许用户下令和审查打击。正如国防部首席数字与人工智能官卡梅隆·斯坦利在2026年3月的一次演示中所说:
我们已经从识别目标,发展到制定行动方案,再到打击该目标。所有这些都通过一个系统完成。这是革命性的。过去我们需要在八、九个系统中完成这些,人类操作员需要将检测结果在系统间来回移动。
衡量MSS生产力提升最引人注目的公开数据,来自对该系统在美国第18空降军2023-2024年“猩红之龙”演习系列中影响的评估:
使用MSS,第18空降军展示了与“伊拉克自由行动”中时间敏感目标定位小组相当的能力,该小组被广泛认为是美军历史上最高效的目标定位小组。然而,更令人印象深刻的是,第18空降军实现这一里程碑时,其目标定位小组仅有大约20人,而“伊拉克自由行动”小组则受益于超过两千名工作人员。
各方信息表明,自那次评估以来,MSS的性能已显著提高,并且在2024年处于开发阶段的功能现已在美国各军种中广泛使用。
A3:虽然计算机视觉系统通常针对特定领域的数据集进行训练或微调以执行特定任务,但大语言模型则在更广泛、跨领域的数据集上进行训练,包括网络文本、书籍、代码和其他来源,这赋予了它们更通用的能力。在曼森的著作Project Maven中,一位匿名的国家地理空间情报局官员表示,这种能力使目标定位速度提高了五倍,叠加计算机视觉已提供的十倍提升。
大语言模型似乎为MSS增添的两项关键能力是自然语言交互和更广泛的模式分析。肖恩·巴蒂尔在2025年离开政府前曾担任国家地理空间情报局的“Maven项目”首席技术官,他告诉曼森,大语言模型可以与人类分析师互动,帮助他们解读对手意图并制定可能的行动方案。他说,大语言模型还可以吸收计算机视觉模型生成的数千个检测结果,并识别跨时间的模式。
Palantir将其人工智能平台(AIP)描述为MSS利用大语言模型的中间层。根据战略与国际研究中心审阅的未公开Palantir文件,AIP提供了几种由大语言模型驱动的工具。例如,“Maven项目线程”“使MSS用户能够利用用户上传的文档完成各种任务和临时分析”,而“Maven项目代理工作室”“为用户提供配备企业特定信息和工具的交互式助手”。第三个工具“Maven项目逻辑”则提供了一个“用于构建、测试和发布由大语言模型驱动的功能的无代码开发工具”。
Palantir发布的关于AIP和MSS的演示让我们得以一窥这些工具在实际应用中的可能样貌。在2023年的“AIP for Defense”演示中,Palantir描绘了一个概念性工作流程:分析师用自然语言向AI助手查询战场状况,接收相关信息和建议的行动方案,然后使用同一界面推进计划的各个要素。该演示发布时展示的是对未来计划能力的说明性场景。然而,它展示了Palantir对AIP如何支持军事决策的愿景,并与巴蒂尔对MSS能力的描述相符。
更近期的,在2026年3月,Palantir发布了一篇博客文章,强调MSS将第三方软件集成到其工作流程中的能力。在一个例子中,由外部AI系统生成的目标检测结果被导入MSS,并可供AIP代理进行自然语言查询和分析。在另一个例子中,来自无人机传感器的检测结果被同步回MSS并加载到AIP代理中,该代理生成了关于可能后续步骤的见解和建议。
除了战场分析,大语言模型还支持围绕情报共享的行政和法律流程。根据未公开的Palantir文件,MSS的“机器辅助披露”功能提供了一个“用于跟踪对外披露政策、处理请求以及自动向合作伙伴网络分发可发布产品的集中门户”,其中包括一个“由大语言模型驱动的政策库”。鉴于对外披露是一个众所周知的缓慢且官僚的过程,即使实现其中部分环节的自动化,也能有意义地加速与盟国伙伴共享情报。
A4:AIP工具使用底层的大语言模型,Palantir通过与领先的人工智能公司合作来提供这些模型。在商业环境中,AIP的“模型目录”允许用户浏览可用的大语言模型并选择最适合特定任务的模型。然而,MSS在机密网络上运行,这严重限制了可用模型的范围。
Anthropic是第一个在这些环境中部署其模型的尖端人工智能公司,并且迄今为止一直为MSS的大语言模型能力提供支持。Palantir于2024年11月宣布与Anthropic建立合作伙伴关系,通过AIP将其旗舰模型Claude引入机密网络,五角大楼随后在2025年7月的一份合同中续签并扩大了与Anthropic的合作。
报道强调了五角大楼在伊朗战争中通过MSS使用Claude,以及在2026年2月抓捕委内瑞拉前总统尼古拉斯·马杜罗的行动中通过一个未指明的Palantir系统使用Claude。
除了直接整合Anthropic的大语言模型能力用于MSS面向用户的功能外,政府可能还在使用Anthropic的其他产品,例如Claude Code。原则上,使用AI代理来编写、编辑和测试MSS的底层软件代码可以加速开发并增强网络安全。许多其他科技公司都强调,他们现在大部分的软件开发工作都是由人类工程师监督的AI编码代理完成的。政府及其行业合作伙伴均未公开明确说明情况是否如此。然而,负责研究与工程的国防部副部长埃米尔·迈克尔在2026年3月表示:
其中一些模型在其他方面也很出色。Claude在编码方面有很好的应用场景。OpenAI的Codex正在强势崛起。xAI因其实时内容而具有一些优势。谷歌的Gemini因其拥有YouTube、Nest Cams等资产,所以在机器人之类的事情上具有一些优势。它们各有不同的长处。
迈克尔的言论至少表明,政府正在考虑使用AI编写的代码,即使尚未开始这样做。Palantir对“Maven项目逻辑”的描述与此解读一致,尽管并非确凿证据。
A5:五角大楼与Anthropic的关系在2026年严重恶化。在重新谈判2025年7月的合同时,Anthropic拒绝了五角大楼要求在合同中增加允许对Claude进行“任何合法使用”的措辞,并删除先前接受的、限制将Claude用于大规模国内监视和完全自主致命武器的服务条款。作为回应,五角大楼将Anthropic标记为“供应链风险”,总统唐纳德·特朗普在Truth Social上发布命令,要求所有联邦机构在六个月内停止使用Claude。前一项行动要求所有五角大楼供应商从其用于五角大楼工作的产品中移除Claude。Anthropic目前正在法庭上对这一认定提出挑战,迄今为止结果不一。
尖端人工智能公司SpaceX、OpenAI和谷歌都在最近几个月与五角大楼达成协议,在机密网络上提供其技术。目前尚不清楚这些公司的哪些模型(如果有的话)将通过AIP在MSS上可用。Palantir首席执行官亚历克斯·卡普在2026年3月的公司会议上告诉记者,Palantir的“产品已与Anthropic集成,未来可能还会与其他大语言模型集成。”
关于在MSS中替换Anthropic模型以及与其他供应商集成的难度,副部长迈克尔本月早些时候表示: 我们在国防部门曾单一依赖一家供应商,一家人工智能供应商,而要集成到机密系统中,不仅仅是把你的软件放到公共云上就能运行。这些都是复杂的、具有保护性的系统,需要大量工作才能集成,所以我不可能那么容易就轻松启用其他几个模型。但我们再也不会单一依赖任何一个模型了。
Palantir在最近的公开沟通中声称,其软件是模型无关的,并支持为大语言模型驱动的用例选择多样化的模型。
A6:MSS现已成为五角大楼推动CJADC2的核心组成部分。随着MSS近期转移至在CJADC2工作中扮演重要角色的CDAO,以及五角大楼2027财年预算文件中的进一步强调,这一点变得越来越清晰。
作为一个专业术语,CJADC2指的是一个作战功能或能力,而非任何特定项目。自2019年以来,国防部一直致力于开发和实施JADC2能力,以解决与上述类似的作战问题。CDAO对CJADC2的描述如下: CJADC2不是一个单一的系统,而是一系列从边缘到董事会的互联能力,为联合指挥官提供跨越战术、作战和战略层面的传感器与系统,以在战争迷雾中更清晰地描绘当前态势。CJADC2还连接了美国关键盟友和伙伴的指挥控制系统,确保我们建立信任和互操作性,从而提升联合国际部队的整体效能。
3月9日,国防部副部长史蒂夫·范伯格向五角大楼官员撰写了一份备忘录,声明MSS将成为一项“记录在案的项目”——即记录在五角大楼预算中的正式批准的采办项目——这标志着五角大楼对Palantir构建的平台做出了更长期的承诺。他的理由基于MSS对CJADC2的重要性:“为了保持我们数据驱动的决策优势,我们必须现在就有重点地进行投资,以深化人工智能在整个联合部队中的整合,并确立人工智能赋能的决策作为我们CJADC2战略的基石。”为此,该备忘录下令在30天内将MSS的监管职责转移至CDAO,并进一步指示五角大楼首席技术官埃米尔·迈克尔评估将MSS智能系统项目在组织上移至“一个潜在的CJADC2项目办公室作为其永久归属”的方案。
预算文件同样强调了MSS在CJADC2发展中的作用。国防部2027财年预算申请中包括23亿美元用于MSS和联合火力网络——一个互补的作战管理平台——“旨在向国防部的联合作战能力交付CJADC2。”
虽然MSS似乎很可能成为CJADC2拼图中的重要一块,但五角大楼这一雄心勃勃概念的完整版本尚未实现。
2025年4月的一份政府问责办公室报告指出,五角大楼仍然缺乏指导CJADC2的框架,也尚未明确具体目标并跟踪进展。报告发现的其他问题包括各军种间的重复工作、限制性的数据规则以及“对实验经验教训的认识有限”。MSS在实现CJADC2方面的未来作用,将取决于五角大楼解决这些内部挑战的能力。
https://www.csis.org/analysis/what-maven-smart-system-and-what-does-it-do
在过去十年中,全球范围内的国家和非国家行为体已运用小型无人机系统(sUAS)达成战场效果。本论文探讨了这些系统在当代作战中的运用方式,以及对等对手部队在高强度作战行动中可能如何运用这些系统。论文亦审视了美国国防部为应对此种威胁所做的现有工作。通过建立小型无人机系统的运用模型,本文为战术部队在多域战场上开展反小型无人机系统(C-sUAS)行动提供了基础。最后,利用威胁模型描述了战术编队为在高强度多域作战中实施反小型无人机系统行动所需的能力,并通过条令、组织、装备、领导力与教育等DOTMLPF-P领域提出了改进建议。
问题陈述 在实际作战中已验证并由战略对手所开发的新兴小型无人机系统技术及战术,对美军战术编队构成了严重威胁。小型无人机系统能够以低成本快速、响应式地执行观察任务并投送动能效应。为应对此威胁,美军战术编队必须了解小型无人机系统在当代作战中的既往运用,识别对手可能运用小型无人机系统的方式,并认清己方部队与关键能力的薄弱环节。在识别并理解该威胁后,战术编队必须将反小型无人机系统能力整合到大规模、多域的战场上,以拒止对手对小型无人机系统的使用。
研究问题 本文旨在回答的主要研究问题是:在高强度多域作战中,战术编队实施反小型无人机系统行动需要哪些能力?为此,本文亦探讨以下次要研究问题:1. 小型无人机系统在当代作战中是如何被运用的?2. 在高强度作战行动中,对等对手部队将如何运用小型无人机系统?
运用"观察-定向-决策-行动"(OODA)框架进行战略思考的一个关键优势在于,它提供了一种系统化的方法,用以切入另一个智能体(无论是协同方还是对手方)的决策过程内部。诚然,当前的OODA概念已支持理解人类决策过程,从而辅助做出关于人类作战人员及以人为中心的作战行动的敏捷、有竞争力的决策。然而,未来基于人类-机器协同的军事决策,依赖于那些支持联合人机智能、而不仅仅是人类能力的技术与交互概念。这需要新的OODA概念。
本文定义了一种机器OODA循环,考虑了使其与人类OODA循环既相似又相异的特性。探讨了人工智能和认知建模的进展如何能够整合到机器的"定向"阶段,从而赋予机器相对于人类的独特优势,即机器能够将对人类操作员的理解和预测,与对机器行为及数据分析的预测,整合到一个更高的水平。此外,有效的人类-机器协同应当由人机联合的"决策-行动"流程来支持,这一流程可概念化为相互作用的OODA循环。对这种人机交互OODA流程的考量,为支持有效作战级人机决策的系统设计原则和架构提供了概念性指导。
本文结构如下。首先,回顾人类OODA循环及在该框架内已发展的各种变体。接着,定义新的机器OODA循环,并讨论如何赋予机器超越人类OODA循环的战略推理优势。最后,介绍将人机团队概念化为交互式OODA流程的方法。在深入探讨OODA循环概念方法细节之前,将阐述为机器智能开发OODA循环背后的逻辑动因。
图. 面向机器决策的观察-定向-决策-行动(OODA)循环。 在概念上,它镜像了博伊德的人类OODA循环。关键区别在于,机器的“定向”阶段由那些影响机器智能、但镜像了已知影响人类智能与推理之概念的机器中心性要素构成。“新信息”与“分析与综合”是人类和机器的“定向”阶段中仅有的两个相同类别,尽管它们的实现方式无疑截然不同。
战争一直是速度、战略与混乱交织的剧场,但如今,舞台上的表演者已然改变。人工智能不再局限于将军、飞行员和分析师,它已昂首步入作战室,以令人既惊骇又振奋的沉稳姿态,在屏幕与网络间翩然穿梭。正如纽卡斯尔大学讲师克雷格·琼斯所指出的,人工智能如今压缩了“杀伤链”,将目标识别到摧毁的时间缩短到先前冲突中几乎无法想象的程度。本质上,炸弹的落下速度可以快于思考的速度。
2026年美以对伊朗的打击,为这一新图景提供了例证。琼斯认为,如果没有人工智能,如此协调的行动“以前是不可能,或者说几乎不可能以那种方式完成的”,这凸显了该技术作为军事决策助手和主要推动者的作用。五角大楼从 Anthropic 的 Claude 迅速转向 OpenAI 的模型和 xAI 的 Grok,展示了这些工具的战略价值:它们已不再是实验性玩具,而是关乎存亡的重要工具。
从信息科学的角度看,令人震惊的是人工智能系统接收和解读数据的速度与体量。历史上,美国空军以“思考速度”作为决策的基准,这一标准在二战时期,从侦察到轰炸可能需要数月。如今,数TB的航拍图像、电子信号、人力情报和社交媒体流言几乎可以被即时解析。这正是弗洛里迪(2016)所称的“信息圈”的教科书式案例——一个人类与智能体共同生产知识的混合领域。在战场背景下,信息圈是致命的:每一个字节都可能转化为一次打击。
人工智能的影响超越了分析层面。博伊德(1987)在军事理论中提出的传统OODA循环(观察、调整、决策、行动),在人工智能加持下已变成增压的反馈循环。观察通过卫星和电子数据解读实现自动化。调整和决策由预测算法加速,这些算法能在毫秒间权衡数千种场景。行动通常由自主无人机执行,在信号被干扰时,它们可在无人监督下运作。换言之,人工智能既是战术家也是执行者,模糊了规划与战斗之间的界限。
然而,速度并非确定性的同义词。琼斯警告,战争中的AI“将错误的程度放大了数个数量级”。即使在人类主导的作战中,错误也在所难免,但AI会放大它们。一个误分类的目标、一个误解的信号或数据管道中的一个小故障,都可能级联成灾难性后果。这与佩罗(1984)的“正常事故”概念相符,即由于紧密耦合和交互复杂性,系统不可避免地会产生故障。现代AI赋能的作战室,以其数据流和自动化响应,在全球范围内体现了这种紧密耦合的复杂性。
伦理与问责构成了这个算法线团的另一个结。阿米尔·侯赛因指出,国际法仍然要求人类对战场决策负责,但AI模糊了行为主体的位置。这引发了类似于拉图尔(1992)行动者网络理论的问题:如果人与机器都是行动者,当发生误击时,谁应承担道德和法律责任?此外,伦理计算是功利主义的:速度和效率是否应凌驾于人类监督之上?节省的每一毫秒,是否伴随着不成比例的道德成本风险?这些都是从康德到辛格的哲学家们在模拟领域争论不休的问题;而在战争的数字剧场中,它们获得了令人胆寒的现实紧迫性。
这个剧场并不仅限于动能打击。网络战已成为人工智能惊人能力的游乐场。伊朗长期作为精密的网络行为体,现正尝试利用AI辅助的攻击。借助诸如 Meta 的 Llama 等开源模型,伊朗团体可以进行自主侦察、制作有说服力的钓鱼活动并大规模调整恶意软件:所有这些都不再需要为每次行动配备顶级程序员(沃尔特,2026)。诸如算法代理和分布式认知等信息科学概念揭示了这种动态:系统本身成为一个行动者,在网络间协调,探测漏洞,并从响应中迭代学习。
其影响遍及全球。人工智能现已部署在多个战场:乌克兰上空的自主无人机、以色列-哈马斯行动中的目标识别,以及横跨基础设施网络的AI赋能间谍活动(梅伦,2026)。每一次部署都改变了对战争的传统理解:速度压倒深思熟虑,算法推断取代人类判断,复杂性呈非线性增长。这与海勒斯(1999)关于分布式认知和后人类状况的观点相呼应:智能与单一心智解耦,并在人、机器和数据的网络中实例化。
信息论提供了更深入的洞见。香农(1948)将信息视为不确定性减少的概念,在此获得了致命的诠释。AI被用来最小化关于敌方位置、通信和弱点的“不确定性”,将原始数据转化为可行动的知识。然而,悖论在于,压缩不确定性的同时,AI也压缩了容错空间。系统行动越快,留给人类反思、伦理考量或纠错的时间就越少——这对学者和实践者而言都是一个令人不寒而栗的认识。
数据、计算与动能力量的融合,也对经典的安全研究范式构成了挑战。基于理性行为者和可预测结果的传统威慑理论,难以解释自主、自适应的AI系统(沃尔兹,1979)。如果AI能超越人类决策速度,战略算计就会改变:误判、目标错位或黑客攻击可能以快于外交或军事干预的速度级联扩散。于是,AI改变了冲突的本体论,使战争同时变得更精确也更不可预测。
与此同时,AI在冲突中的兴起凸显了信息不对称。拥有更优数据处理能力、能获取开源AI模型或先进网络基础设施的一方,将获得前所未有的优势。然而,这些不对称是可变的:开源AI降低了国家和非国家行为体的门槛,使得意想不到的角落也能发起复杂行动。这再次与博伊德的OODA循环概念产生共鸣:能够最快处理、行动和适应的一方获胜;未必是拥有优势数量或传统火力的一方。
信息科学阐明了其机制与影响:AI战争系统并非中性工具,而是认知放大器,同时放大了人类的能力与错误。它们将代理权重新分配于网络之间,将决策时间压缩到近乎瞬时,并同时对伦理、法律和战略的正统观念提出挑战。正如弗洛里迪(2010)所言,在信息圈中,知识与权力密不可分;而在现代作战室里,知识是致命的。
然而,在这错综复杂的局面中,存在一种奇特的美感。AI不会疲倦、抱怨或恐慌。它以数学家在概率矩阵上起舞般的精准执行着OODA循环。它的决策,无论多么充满道德争议,都远快于任何人类将军或分析师所能企及。但问题恰恰在此:无反思的速度、无同理心的效率、无问责的自主,可能带来战略上辉煌但伦理上破产的胜利。
人工智能与现代战争的融合已不再是未来图景;它已然是现在。从伊朗到乌克兰,从自主无人机到AI辅助的网络攻击,战争的剧场已转变为人与机器认知交织的网络。信息科学为理解这一转变提供了透镜,凸显了数据驱动决策的速度、体量与波动性。然而,它也突显了风险:错误倍增,问责模糊,伦理风险巨大。
未来,学者和政策制定者都必须面对一个令人不寒而栗的认识:在人工智能与现代战争的时代,机器很可能决定谁生谁死。而我们作为人类所面临的挑战,是确保伦理保障措施能够防止AI造成无意的混乱。
Peng, S-H. L. (2026, March 25). AI and modern wars: How the 2026 US‑Israeli strikes rewired the kill chain. Information Matters. https://informationmatters.org/2026/03/ai-and-modern-wars-how-the-2026-usisraeli-strikes-rewired-the-kill-chain/