新智元报道
编辑:艾伦
【新智元导读】美国五角大楼正向 Anthropic 极限施压,要求彻底解除 Claude 的军事应用限制。会后,Anthropic 发布新版政策。公司正式放弃了「单方面暂停大模型训练」的安全承诺。在政治与商业的双重压力下,AI 安全理想主义最终向现实妥协。
就在这两天,美国五角大楼内酝酿着一场气氛冷硬的会面。
坐在谈判桌两端的,是代表着截然不同两种意识形态的权力掌舵者。
一边是美国国防部长皮特·海格塞斯(Pete Hegseth),他代表着新一届政府在国家安全事务上毫无妥协的强势姿态与放松监管的狂飙做派。
另一边则是达里奥·阿莫代(Dario Amodei),Anthropic CEO。
在硅谷,阿莫代(Dario Amodei)和他的公司一直以「安全第一」的教条主义者形象示人,他们甚至将约束 AI 模型视作与开发 AI 模型同等重要的使命。
这并非一次为了增进了解的友好拜访。
据多位知情人士透露,这场会面充满了火药味。
五角大楼向阿莫代下达了最后通牒。
国防部要求 Anthropic 在美国时间周五晚前(北京时间周六晚前)全面解除其大模型 Claude 在军事机密系统中的安全限制,允许军方将其用于「所有合法目的」。
如果 Anthropic 拒绝,五角大楼将考虑动用《国防生产法》(Defense Production Act)强制其修改代码,或者直接将其打上「供应链风险」的标签,彻底切断其与军方乃至其他联邦承包商的商业联系。
https://www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
阿莫代带来的底牌显得有些单薄。
Anthropic 同意放宽部分使用限制,坚持保留两条红线。
这两条红线分别是禁止将其 AI 用于对美国民众的大规模监控,禁止用于开发无需人类介入的致命性自主武器。
在五角大楼看来,这种要求对军方每一次具体使用进行审查的「护栏」,是对军事决策权的僭越。
就在这场惊心动魄的政商博弈进行的同时,另一场更为隐秘的蜕变正在 Anthropic 内部发生。
会后,这家曾经最为保守的 AI 明星企业悄然发布了第三版《负责任的扩展政策》(RSP 3.0)。
https://www.anthropic.com/news/responsible-scaling-policy-v3
这份长达近 20 页的政策文件宣告了一个核心承诺的终结。
Anthropic 正式放弃了其在 2023 年立下的「一旦安全措施无法保障便单方面暂停大模型训练」的誓言。
一面是在华盛顿的圆桌上死守 AI 应用的伦理底线,一面是在旧金山的实验室里亲手拆除制约研发速度的安全阀。
当技术狂飙与大国博弈相互交织,曾经试图为 ASI 戴上镣铐的理想主义者们,正在无可奈何地向现实低头。
五角大楼的焦躁与硅谷的备胎
五角大楼对 Anthropic 的愤怒与依赖是一体两面的。
早在此次僵局发生之前,国防部与 Anthropic 已经签署了一份价值 2 亿美元的试点合同。
Claude 是目前美国军方机密网络中唯一获得授权并正在运行的 AI 模型。
在敏感情报分析、武器开发以及战场行动中,军方人员常常将 Claude 与数据分析巨头 Palantir 的技术结合使用。
一月份发生在委内瑞拉的「马杜罗突袭」行动中,Claude 就曾深度参与并发挥了关键作用。
防务官员们毫不讳言 Claude 的强大。
正是因为 Claude 的性能在同行中一骑绝尘,五角大楼才容忍了 Anthropic 至今。
然而,海格塞斯(Pete Hegseth)在今年 1 月发布的一份备忘录打破了原有的默契。
备忘录要求所有提供给军方的 AI 技术必须移除限制,这直接导致了双方合同的重新谈判。
在海格塞斯(Pete Hegseth)强硬的施压策略背后,是一套精心编织的替代方案。
就在阿莫代(Dario Amodei)被传唤至五角大楼的几乎同一时间,埃隆·马斯克旗下的AI公司 xAI 与五角大楼达成了协议,同意让其模型 Grok 进入机密系统,并完全接受了军方「用于所有合法目的」的标准。
https://www.axios.com/2026/02/23/ai-defense-department-deal-musk-xai-grok
xAI 的妥协为五角大楼提供了向 Anthropic 施压的绝佳筹码。
不仅如此,谷歌(该公司曾声称信条是: Don't be evil)和 OpenAI 也在紧锣密鼓地与军方接洽。
https://www.nytimes.com/2026/02/23/us/politics/pentagon-anthropic-ai.html
知情人士透露,五角大楼正以前所未有的紧迫感推动与这两家巨头的谈判。
谷歌为了专门服务政府已经投入巨资建设数据中心,其 Gemini 模型被视为极具潜力的替代品。
虽然 OpenAI 的 ChatGPT 目前仍在机密网络之外,且由于复杂的安全问题距离达成协议尚有距离,但大门已经敞开。
https://www.nytimes.com/2026/02/23/us/politics/pentagon-anthropic-ai.html
这构成了对 Anthropic 的极限施压。
军方官员直言不讳地指出,如果 Anthropic 不让步,就让其彻底出局。
将 Anthropic 列为「供应链风险」是一项极具毁灭性的惩罚。
这意味着任何希望与国防部做生意的企业,都必须提供证明,确保其工作流程中没有使用 Claude。
https://www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario
对于一家估值高达 3800 亿美元、年化收入正以十倍速度疯涨的明星独角兽而言,这无疑是切断了其在政府(To G)与企业级市场(To B)最丰厚的一条主脉。
更为极端的威胁是《国防生产法》。
这项在新冠疫情期间曾被用来强制生产呼吸机和疫苗的法案,此刻被异化为一种带有敌意的行政大棒。
五角大楼试图借此绕过商业谈判,以国家安全的名义直接剥夺一家科技公司对其核心产品的控制权。
尽管有顾问指出 Anthropic 可以在法庭上抗辩,证明 Claude 是为政府敏感用途定制的软件而非普通商品,但这种旷日持久的法律消耗战同样是初创公司难以承受之重。
「暂停键」的消亡与绝对安全的幻灭
就在外界的目光聚焦于华盛顿的政治交锋时,Anthropic 内部正在进行一场痛苦的路线修正。
Anthropic 由达里奥·阿莫代(Dario Amodei)及其妹妹丹妮拉·阿莫代(Daniela Amodei)等一众前 OpenAI 核心成员创立。
妹妹 Daniela Amodei
这群人当年离开 OpenAI 的初衷,正是担忧资本的过度介入会使得 AI 的安全被抛之脑后。
成立之初,Anthropic 就确立了将安全性作为最高信仰的企业文化。
2023 年出台的第一版《负责任的扩展政策》更是将这种信仰条文化。
那份政策中有一个被外界广泛赞誉的条款,即如果模型能力超越了特定的安全阈值,且公司无法保证相应的风险缓解措施到位,Anthropic 将无条件暂停新模型的训练和部署。
当时的 Anthropic 高层曾天真地认为,这种单边承诺能够产生一种「向上攀比」的示范效应。他们希望借此倒逼整个行业将安全置于速度之上,并最终促成具有约束力的国家法规甚至国际条约。
3 年的时间足以让任何乌托邦式的幻想破灭。
Anthropic 的首席科学官杰瑞德·卡普兰(Jared Kaplan)在接受采访时道出了变更政策的实情。
全球 AI 立法的步伐不仅没有跟上技术的发展,反而出现了严重的倒退。
美国新一届政府高举放松监管的大旗,甚至试图废除部分州一级的 AI 监管法案。
国际间的协同治理更是遥遥无期。与此同时,同行间的算力军备竞赛已经进入白热化。
「如果我们停下脚步,而竞争对手正在毫无顾忌地全速前进,这对于任何人都没有好处。」卡普兰的这番话解释了RSP 3.0 的核心逻辑。
新版政策完成了从「绝对风险」向「边际风险」的评估体系转移。
Anthropic 在文件中坦承,AI造成的灾难性风险取决于全行业多个参与者的共同行动。
如果一家负责任的开发者为了实施安全措施而暂停开发,那些缺乏安全保障的开发者就会主导技术的前沿。
结果将是一个更加不安全的世界,因为负责任的公司会因此丧失对前沿技术的理解力,进而失去进行安全研究的能力。
这是一个充满宿命感的悖论。
为了确保 AI 的安全,必须让它足够强大;
为了研究前沿的风险,必须自己先触及前沿。
Anthropic 最终得出的结论是:在大模型时代,没有公司可以停在原地。
这种转变也源于科学评估的困境。
早期的政策设想中,安全阈值被设定为一条条清晰的红线。
然而实际操作中,红线变成了模糊的渐变色。
以生物武器研发风险为例,现有的 Claude 模型已经具备了相当程度的生物学知识,能够轻易通过各项基准测试。
这使得 Anthropic 无法证明该模型风险很低。
缺乏能够量化严重灾难风险的成熟科学标准,让 Anthropic 在试图说服竞争对手或政府放慢脚步时显得极其缺乏说服力。
没有退路的前沿实验
作为对放弃「单边暂停」承诺的补偿,Anthropic 在 RSP 3.0 中引入了更为密集的透明度机制。
他们承诺每 3 到 6 个月发布一次详尽的「风险报告」(Risk Reports)(特别写明了:「部分内容会进行删减」),并在必要时引入无利益冲突的第三方进行严格的外部审查。
https://www.anthropic.com/news/responsible-scaling-policy-v3
公司还会定期更新「前沿安全路线图」(Frontier Safety Roadmap),将未来的安全目标公之于众,作为一种不具强制法律约束力却能接受公众监督的软性承诺。
非营利组织 METR 的政策主管克里斯·佩因特(Chris Painter)将 Anthropic 的这一转变形容为进入了「分诊模式」(Triage mode)。
在医疗急救中,分诊意味着放弃对轻伤者的即时救治,集中有限的资源抢救最危重的病人。
在 AI 安全领域,这意味着 Anthropic 承认现有的评估和缓解手段已经跟不上模型能力增长的速度,他们只能在不断升级的风险中做最坏打算。
佩因特表达了对这种「温水煮青蛙」效应的担忧:当二元化的安全红线被取消,由一项项具体的风险评估取而代之时,社会可能会在不知不觉中滑向危险的深渊,却再也不会有一个明确的触发机制来拉响警报。
回望五角大楼那间气氛凝重的会议室,我们或许能更深刻地理解 Anthropic 眼下的处境。
面对军方的极限施压,阿莫代依然拒绝在「大规模监控」和「致命自主武器」这两项直接关乎人命与公民权利的应用层面上妥协——至少在明面上要维持住公司体面的「人设」。
他们已经意识到,在这个由算力、资本和国家意志共同驱动的庞大齿轮前,一家试图通过闭门修行的初创公司是极其脆弱的。
如果拒绝五角大楼,将被贴上敌视国家安全的标签,被驱逐出拥有无穷资源的市场,进而被那些没有道德包袱的竞争对手碾压。
为了留在牌桌上,他们必须保持技术领先;
为了保持领先,他们必须放弃当年立下的那份会阻碍扩张步伐的誓言。
从坚持绝对安全,到寻求相对安全;
从单方面暂停训练的果决,到只求在狂飙的列车上加装更好刹车片的妥协。
Anthropic 的蜕变史,就是一部硅谷 AI 理想主义在现实土壤上的降级史。
技术精英们曾经深信自己可以用算法和政策为人类锁住潘多拉的魔盒,但地缘政治的压力和商业竞争的残酷重塑了游戏的规则。
在这条通往 ASI 的单行道上,人类最终会惊恐地发现,比机器失控更早到来的,是人类自己对按下暂停键的无能为力。
参考资料:
https://www.anthropic.com/news/responsible-scaling-policy-v3