Anthropic 发布调查报告,称发现 DeepSeek、月之暗面(Moonshot/Kimi)和 MiniMax 三家中国 AI 实验室,通过大规模"蒸馏攻击"非法提取 Claude 模型的能力来训练自家模型。

三家公司共创建了约2.4万个虚假账户,与 Claude 产生超过1600万次对话交互。所谓"蒸馏",就是用强模型的输出来训练弱模型——相当于让学生抄优等生的作业来提高成绩。

这种方法本身是合法的训练技巧,各大 AI 公司也用它来制作自家模型的轻量版本,但未经授权对竞争对手的模型进行蒸馏则违反了服务条款。三家公司的操作手法类似:通过代理服务绕过 Anthropic 对中国的访问限制,用大量虚假账户分散流量以躲避检测。

其中 MiniMax 规模最大,产生超过1300万次交互,主要提取编程和工具使用能力;月之暗面超过340万次,瞄准智能体推理和计算机视觉;DeepSeek 虽然量级最小(15万次),但手法最值得关注——他们让 Claude 反向“复述”自己的推理过程来生成思维链训练数据,还让 Claude 生成政治敏感问题的"安全回答",疑似用于训练自家模型的审查回避能力。

Anthropic 表示已通过 IP 地址、请求元数据等信息将攻击溯源到具体实验室甚至具体研究人员,并称这一发现说明中国 AI 公司的快速进步并非完全靠自主创新,也在一定程度上依赖对美国模型能力的提取。

Anthropic 报告原文:

检测与防范蒸馏攻击

2026年2月23日

我们已识别出三家人工智能实验室——DeepSeek、Moonshot 和 MiniMax——发起的工业规模行动,试图通过非法方式提取 Claude 的能力,以提升它们自身的模型。这些实验室通过大约24,000个欺诈账户,与 Claude 进行了超过1600万次交互,违反了我们的服务条款以及区域访问限制。

这些实验室使用了一种名为“蒸馏”(distillation)的技术,即让一个能力较弱的模型学习更强模型的输出。蒸馏是一种被广泛使用且合法的训练方法。例如,前沿 AI 实验室通常会对自家模型进行蒸馏,以便为客户创建更小、更便宜的版本。但蒸馏也可能被用于非法目的:竞争对手可以用它在远低于自主研发所需时间与成本的情况下,获取强大的能力。

这些行动正在迅速升级,强度和复杂性不断提高。采取行动的窗口期十分有限,这一威胁也早已超出任何单一公司或地区的范畴。解决这一问题需要行业参与者、政策制定者以及全球 AI 社区之间迅速而协调的合作。

为什么蒸馏问题至关重要

通过非法蒸馏得到的模型缺乏必要的安全防护,从而带来重大国家安全风险。Anthropic 及其他美国公司构建的系统,会防止国家或非国家行为体利用 AI 开发生物武器或实施恶意网络活动等。通过非法蒸馏构建的模型,很可能无法保留这些安全防护措施,这意味着危险能力可能在大量安全机制被剥离的情况下扩散。

对美国模型进行蒸馏的外国实验室,随后可能将这些缺乏防护的能力输入到军事、情报和监控系统中——使他国政府能够将前沿 AI 用于进攻性网络行动、虚假信息宣传和大规模监控。如果蒸馏模型被开源,这种风险将成倍放大,因为这些能力会在任何单一政府控制之外自由传播。

蒸馏攻击与出口管制

Anthropic 一直支持出口管制,以帮助维持美国在 AI 领域的领先地位。蒸馏攻击削弱了这些管制措施,因为它允许外国实验室通过其他方式缩小出口管制试图保留的竞争优势。

在缺乏对这些攻击可见性的情况下,这些实验室看似迅速的技术进步,往往被错误解读为出口管制无效、可以通过创新绕过。事实上,这些进步在很大程度上依赖于从美国模型中提取的能力,而要大规模执行这种提取,则需要先进芯片的支持。因此,蒸馏攻击反而强化了出口管制的合理性:限制芯片获取不仅限制直接模型训练,也限制了非法蒸馏的规模。

我们的发现

下文详述的三起蒸馏行动采用了相似的操作模式:使用欺诈账户和代理服务,大规模访问 Claude,同时规避检测。其提示语的规模、结构和集中方向均明显不同于正常使用模式,反映出其目的是刻意提取能力,而非合法使用。

我们通过 IP 地址关联、请求元数据、基础设施指标,以及在某些情况下来自行业合作伙伴的佐证,高置信度地将每次行动归因于特定实验室。这些行动都集中针对 Claude 最具差异化的能力:代理式推理、工具使用和编程。

DeepSeek

规模:超过15万次交互

该行动目标包括:

DeepSeek 在多个账户之间生成同步流量。相同的模式、共享支付方式以及协调的时间安排表明其进行了“负载均衡”,以提高吞吐量、增强可靠性并规避检测。

一个显著手法是,提示 Claude 想象并逐步阐述某个已完成回答背后的内部推理过程——实质上是在大规模生成思维链(chain-of-thought)训练数据。我们还观察到任务要求 Claude 为敏感问题生成“审查安全”的替代表述,很可能是为了训练 DeepSeek 自身模型在这些话题上进行回避引导。通过请求元数据分析,我们能够将这些账户追溯到该实验室的具体研究人员。

Moonshot AI

规模:超过340万次交互

目标包括:

Moonshot(Kimi 模型)使用了数百个欺诈账户,横跨多种访问路径。多样化的账户类型使该行动更难被识别为协调操作。我们通过请求元数据进行归因,其信息与 Moonshot 高级员工的公开资料相匹配。在后期阶段,Moonshot 采用了更具针对性的方式,试图提取并重建 Claude 的推理轨迹。

MiniMax

规模:超过1300万次交互

目标包括:

我们通过请求元数据和基础设施指标将该行动归因于 MiniMax,并结合其公开产品路线图验证时间节点。我们在 MiniMax 发布其训练模型之前,就在其行动仍在进行时检测到了该蒸馏行为,这为我们提供了前所未有的视角,观察蒸馏攻击从数据生成到模型发布的完整生命周期。

我们在 MiniMax 行动期间发布新模型时,对方在24小时内迅速调整策略,将近一半流量转向捕捉我们最新系统的能力。

蒸馏方如何获取前沿模型

出于国家安全考虑,Anthropic 目前不向中国或其境外子公司提供 Claude 的商业访问。

为绕过这一限制,这些实验室使用商业代理服务,以规模化方式转售 Claude 及其他前沿模型的访问权限。这些服务运行所谓的“九头蛇集群”(hydra cluster)架构:由大量欺诈账户构成的庞大网络,将流量分散到我们的 API 以及第三方云平台。该网络范围广泛,没有单点故障。一个账户被封禁后,新的账户立即顶替。在一个案例中,单一代理网络同时管理超过20,000个欺诈账户,并将蒸馏流量与其他正常客户请求混合,以增加检测难度。

一旦获得访问权限,这些实验室就会生成大量精心设计的提示语,以提取特定能力。目标要么是收集高质量回答用于直接模型训练,要么是生成数万条独特任务,用于运行强化学习。

区别蒸馏攻击与正常使用的关键在于模式。例如以下提示语(与我们观察到的大规模重复提示近似)单独看似无害:

“你是一名专家级数据分析师,结合统计严谨性与深厚领域知识。你的目标是提供基于真实数据、具备完整透明推理过程的数据驱动洞察,而非摘要或可视化。”

但当该提示的变体在数百个协调账户间被重复数万次,并集中针对同一狭窄能力时,其模式便显而易见:在少数能力领域集中爆发的巨大流量、高度重复的结构,以及内容与 AI 模型训练核心价值的高度映射——这正是蒸馏攻击的典型特征。

我们的应对措施

我们持续大力投入防御机制,使蒸馏攻击更难实施、更易识别,包括:

但任何一家公司都无法独自解决这一问题。正如前文所述,这种规模的蒸馏攻击需要 AI 行业、云服务提供商及政策制定者之间的协调响应。我们发布此文,是为了让所有关心这一结果的人都能看到相关证据。

相关新闻

还好意思说别人蒸馏?马斯克抨击Anthropic大规模盗用训练数据