Claude AI部署核武器分类器:96%精准阻止核武器蓝图获取

8/25/2025, 10:50:11 PM

Anthropic与美国能源部国家核安全局合作,在Claude AI中部署了新的分类器。该工具专门用于检测和阻止用户询问核武器制造相关问题。

该分类器表现出高达96%的准确率,能够有效区分良性咨询(如核技术原理)与恶意滥用(如寻求制造蓝图)。

用户仍然可以询问关于核武器技术原理或铀-235等核燃料的知识。但一旦涉及详细制造方法,相关询问将被标记并自动终止对话。

Anthropic计划与前沿模型论坛分享这项技术,未来包括ChatGPT在内的其他AI模型也可能部署类似的旨在确保安全的措施。