What is 安全护栏?

应用于LLM输入和输出的安全机制和过滤器，防止有害、偏题或违反策略的内容到达用户。

Definition

安全护栏是应用于LLM系统的输入验证、输出过滤和行为约束的集合，确保系统在可接受的边界内运行。它们防止模型生成有害内容（暴力、仇恨言论、自残指导）、泄露敏感信息（PII、专有数据、系统提示）、产生偏题回复或进行未授权的工具调用。安全护栏作为模型和用户之间的安全层，在违规行为造成伤害之前捕获它们。

安全护栏可以在多个层面实施。输入护栏在用户提示到达模型之前进行筛查，阻止越狱尝试、提示注入攻击和试图提取系统提示或训练数据的查询。输出护栏在模型回复返回给用户之前进行筛查，捕获有毒内容、PII泄露、虚构的引用或违反业务规则的回复。行为护栏通过微调和RLHF嵌入模型中，教导模型拒绝有害请求并保持在其定义的角色范围内。

安全护栏领域包括专有解决方案（OpenAI的内容审核端点、Azure AI Content Safety）和开源框架（Guardrails AI、NeMo Guardrails、LlamaGuard）。这些系统从简单的关键词过滤到理解上下文和细微差别的复杂分类器方法不等。生产部署通常叠加多种护栏机制以实现纵深防御。

Why It Matters

没有安全护栏，LLM部署面临重大风险。模型可以通过提示注入被操纵以忽略其指令并产生有害内容。它们可能无意中暴露训练数据或上下文窗口中的PII。它们可能生成看似合理但危险的错误医疗、法律或金融建议。每一种故障模式都会产生法律责任、声誉损害和对用户的潜在伤害。

监管要求越来越多地要求AI系统配备安全护栏。欧盟AI法案要求高风险AI系统具备风险缓解措施，行业特定法规（医疗、金融、教育）施加额外的安全要求。没有足够安全护栏的组织部署LLM将面临法律责任和监管处罚。

How It Works

典型的安全护栏系统作为LLM服务管道中的中间件层运作。输入护栏使用训练用于检测提示注入、越狱尝试和禁止内容类别的分类器来分析传入的提示。触发这些分类器的提示要么被完全阻止（返回礼貌的拒绝），要么在到达模型前进行清理。

输出护栏使用多种技术组合分析模型回复：毒性分类器检查有害内容，PII检测器扫描个人身份信息，主题分类器验证回复是否在允许的领域内，事实核查系统根据可信来源验证事实声明。未通过任何护栏检查的回复要么被替换为安全的后备回复、删除有问题的部分，要么在更严格的约束下重新生成。

Example Use Case

一个医疗聊天机器人部署了三层安全护栏。输入护栏阻止将机器人用于医疗诊断的尝试（重定向到「请咨询医生」）。输出护栏使用医疗安全分类器标记任何可能被解释为特定治疗建议的回复。PII护栏检测并脱敏可能出现在模型上下文中的患者标识符。这些护栏共同确保机器人提供一般健康信息而不越界到医疗实践或隐私侵犯。

Key Takeaways

安全护栏是过滤LLM输入和输出以防止有害或违反策略内容的安全机制。
它们在多个层面运作：输入筛查、输出过滤和通过训练嵌入的行为约束。
纵深防御——叠加多种护栏类型——对生产安全至关重要。
监管框架越来越多地要求高风险领域的AI系统配备安全护栏。
安全护栏解决方案包括专有和开源两种，从关键词过滤到复杂分类器不等。

How Ertas Helps

Ertas Studio支持微调带有内置安全行为的模型，而Ertas Data Suite帮助准备包含适当拒绝样本和面向安全的指令-回复对的训练数据，将安全护栏行为直接嵌入模型中。

Related Resources

Hallucination

Model Evaluation

PII Redaction

Red Teaming

RLHF (Reinforcement Learning from Human Feedback)

Use Case

Ertas for Healthcare

Use Case

Ertas for Legal

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →