Anthropic与美国能源部国家核安全局合作,在Claude AI中部署了新的分类器。该工具专门用于检测和阻止用户询问核武器制造相关问题。
该分类器表现出高达96%的准确率,能够有效区分良性咨询(如核技术原理)与恶意滥用(如寻求制造蓝图)。
用户仍然可以询问关于核武器技术原理或铀-235等核燃料的知识。但一旦涉及详细制造方法,相关询问将被标记并自动终止对话。
Anthropic计划与前沿模型论坛分享这项技术,未来包括ChatGPT在内的其他AI模型也可能部署类似的旨在确保安全的措施。
Anthropic与美国能源部国家核安全局合作,在Claude AI中部署了新的分类器。该工具专门用于检测和阻止用户询问核武器制造相关问题。
该分类器表现出高达96%的准确率,能够有效区分良性咨询(如核技术原理)与恶意滥用(如寻求制造蓝图)。
用户仍然可以询问关于核武器技术原理或铀-235等核燃料的知识。但一旦涉及详细制造方法,相关询问将被标记并自动终止对话。
Anthropic计划与前沿模型论坛分享这项技术,未来包括ChatGPT在内的其他AI模型也可能部署类似的旨在确保安全的措施。