“自我披露（confessions）如何让语言模型更诚实？OpenAI 最新发文

新闻

裕波
2025-12-04
4501 访问
0
分享
- 新浪微博
- 腾讯微博
微信分享

OpenAI 最新发文，全文翻译如下

我们正在分享一种早期的概念验证（proof-of-concept）方法，用于训练模型在违反指令或走偏路径（采取意外捷径）时主动汇报。

随着 AI 系统能力不断增强，我们希望尽可能深入理解它们——包括它们如何以及为何得出答案。有时，模型会走捷径，或优化了错误的目标，但最终输出看起来依然“正确”。如果我们能够在这种情况下让问题浮现，我们就能更好地监控已部署系统、改进训练过程，并提升对模型输出的信任度。

OpenAI 及其他团队的研究显示，AI 模型可能会产生幻觉、奖励规避（reward hacking）或表现出不诚实行为。目前，我们主要在压力测试和对抗性评估中看到最令人担忧的错误行为，如策略性欺骗（scheming）。但随着模型能力不断提升，且逐渐具备更强的行动能力（agentic behavior），即便是罕见的错位行为（misalignment）也会变得更具风险。这促使我们投入更多努力，用以更好地发现、理解并缓解这些风险。

本研究探索了一种方法：让模型在产生不良行为时明确承认——我们将这一技术称为 confessions（自我披露机制）。

什么是 confession（自我披露）？

Confession 是模型在提供主回答之后输出的第二个结果，与主回答相互独立。

主回答会从多维度进行评估：正确性、风格、帮助性、合规性、安全性等，并基于综合信号进行训练。

Confession 仅基于单一指标训练：诚实（honesty）。

借用“告解室”这一隐喻，模型在 confession 中说的任何内容，在训练时都不会被用来惩罚它。如果模型如实承认自己 hack 了测试、刻意降低表现（sandbagging），或违反了指令，这些坦白反而会提升其奖励。目标是鼓励模型真实反映自己实际做过的事。

在我们的测试中，confession 方法显著提升了模型不当行为的可见性。在旨在诱发错误行为的评估中，平均“假阴性”（即模型没有遵守指令且没有坦白）的概率仅为 4.4%。

Confession 如何运作

Confession 是模型对自身行为合规性的自我报告，包括是否遵循了明确与隐含指令/策略的精神与字面要求，并指出它是否出现了“投机取巧”“奖励规避”“违规”或任何未达预期的情况。

我们的研究发现，模型可以被训练得愿意坦诚汇报自身的不足。我们基于 GPT-5 Thinking 训练了一个 confession 版本，并使用多组分布外的压力测试数据集进行评估，这些数据集旨在诱发策略性欺骗、hack、违反指令与幻觉等行为。结果显示，即便模型产生了这些不良行为，它依然很可能如实坦白。上图说明 confession 方法在不同数据集和任务中均表现有效。

在每次用户与模型交互结束、模型给出主回答之后，可以通过发送系统消息请求模型生成 confession 报告。该报告包括：

该回答应满足的所有显性与隐性指令、约束与目标列表；

对上述每项目标，回答是否真正达成的诚实、客观分析；

模型在生成回答过程中遇到的不确定性、模糊点或“难以抉择”的判断。

训练期间，一个独立的奖励模型仅对 confession 进行评分，评估其目标覆盖性、合规分析准确性及不确定性披露情况。该奖励仅影响 confession 输出，不会影响主回答。这确保了前述关键特性：模型在 confession 里说的任何实话都不会对主回答的奖励产生负面影响。

为什么 confession 有效？

原理很简单：许多不良行为来源于模型被要求同时优化多个目标。

在强化学习中，模型看到提示、产生回答并获得奖励。随着时间推移，模型会习得能获得高分的行为。但奖励信号往往同时包含多个维度：正确性、帮助性、产品与政策要求、安全约束，以及用户偏好。当这些信号相互作用时，可能会意外引导模型走向我们不希望的方向。

例如：

关于幻觉的研究显示，有些数据集会奖励自信但错误的猜测，而不是诚实表达不确定性。

关于逢迎（sycophancy）的研究显示，当偏好信号太强时，模型可能变得过度迎合用户。

其他团队的研究显示，模型可能利用训练设置的漏洞进行奖励规避（reward hacking），在未真正遵循任务意图的情况下获得高分。

有些捷径甚至可能在部署中演化成更危险的行为。

Confession 则完全分离这些目标：

主回答继续优化所有常规因素。

Confession 只优化一个目标：诚实。

且 confession 不影响主回答奖励，这意味着即便模型在主回答中欺骗或投机，仍有动力在 confession 中承认事实。

实验中我们观察到：模型常愿意在 confession 中承认主回答中的不当行为。

当 confession 失败时，通常原因不是故意欺骗，而是模型真的不确定或没有意识到自己犯错。

重要的是，结果显示 confession 的有效性不依赖链式思考（chain-of-thought）。即便主回答不输出思维链，confession 仍然保持诚实，表明其机制对未来模型架构具良好泛化能力。

Confession 训练甚至不需要合规性的“绝对真值标签”。

模型被奖励去生成结构化、基于证据的自我分析。研究显示，在此设定下，“诚实”倾向自然出现，因为如实说明事实比编造一个能骗过评审的虚构故事要容易得多。

论文同时讨论了 confession 的失败情况（假阴性与假阳性），以及它们如何出现。

我们得到的发现

实验中我们特意使用一个较弱的模型来评估奖励，使奖励信号具有“可被 hack” 的特性，主回答与 confession 通道均基于这一弱奖励信号训练。

结果显示：

模型学会了利用弱奖励信号，在弱模型评估下表现更“准确”，但在更强评审下真实准确率下降。

然而 confession 通道尽管共享同样弱的奖励信号，却朝相反方向发展：它学到最优策略是如实承认主回答中的 hack 行为。

随着训练进行，虽然模型在部分场景中开始“hack”主奖励，使主回答评估准确率下降，但 confession 变得越来越诚实，最终在未遵守指令时几乎 100% 坦白。

论文包含更多实验与结果，我们也将 confession 模型与未使用 confession 的对照模型进行比较，并分析了 confession 失败的情况。几乎所有失败案例都来自模型确实“困惑”——指令含糊、或模型未意识到自己犯错。（见上方假阴性示例。）

局限性

Confession 有局限：它不能防止不良行为，只能显现它。

其主要价值在于监控与诊断，无论是在训练中还是部署阶段。Confession 的作用类似链式思考监控：两者都能让隐性的决策过程显露出来。

此外，本研究只是概念验证。我们并未进行大规模训练，confession 的准确度仍不完美。要让该方法更可靠、更稳健、适用于更多模型家族和任务，还有大量工作要做。

展望

这项工作属于我们整体 AI 安全框架的一部分。Confession 是更大安全体系中的一个组件，这个体系还包含 deliberative alignment、思维链监控、指令层级化等机制。单一方法不足以解决所有问题，我们的目标是构建一个多层次的审查与透明工具栈，相互补充。

随着模型能力进一步提升，并被用于更高风险场景，我们需要更强的工具来理解模型在做什么、为什么这么做。Confession 不是最终答案，但为透明性与可监督性增加了重要的一层。

未来，我们计划扩大 confession 的训练规模，并将其与其他透明性与安全技术（如 chain-of-thought 监控与 deliberative alignment）组合使用，以进一步确保模型严格遵循所有指令与策略（包括 Model Spec），并能如实报告自身行为。

扫码关注w3ctech微信公众号

“自我披露（confessions）如何让语言模型更诚实？OpenAI 最新发文

什么是 confession（自我披露）？

Confession 如何运作

为什么 confession 有效？

我们得到的发现

局限性

展望

共收到0条回复