w3ctech

“自我披露(confessions)如何让语言模型更诚实?OpenAI 最新发文

OpenAI 最新发文,全文翻译如下

我们正在分享一种早期的概念验证(proof-of-concept)方法,用于训练模型在违反指令或走偏路径(采取意外捷径)时主动汇报。

随着 AI 系统能力不断增强,我们希望尽可能深入理解它们——包括它们如何以及为何得出答案。有时,模型会走捷径,或优化了错误的目标,但最终输出看起来依然“正确”。如果我们能够在这种情况下让问题浮现,我们就能更好地监控已部署系统、改进训练过程,并提升对模型输出的信任度。

OpenAI 及其他团队的研究显示,AI 模型可能会产生幻觉、奖励规避(reward hacking)或表现出不诚实行为。目前,我们主要在压力测试和对抗性评估中看到最令人担忧的错误行为,如策略性欺骗(scheming)。但随着模型能力不断提升,且逐渐具备更强的行动能力(agentic behavior),即便是罕见的错位行为(misalignment)也会变得更具风险。这促使我们投入更多努力,用以更好地发现、理解并缓解这些风险。

本研究探索了一种方法:让模型在产生不良行为时明确承认——我们将这一技术称为 confessions(自我披露机制)。

什么是 confession(自我披露)?

Confession 是模型在提供主回答之后输出的第二个结果,与主回答相互独立。

主回答会从多维度进行评估:正确性、风格、帮助性、合规性、安全性等,并基于综合信号进行训练。

Confession 仅基于单一指标训练:诚实(honesty)。

借用“告解室”这一隐喻,模型在 confession 中说的任何内容,在训练时都不会被用来惩罚它。如果模型如实承认自己 hack 了测试、刻意降低表现(sandbagging),或违反了指令,这些坦白反而会提升其奖励。目标是鼓励模型真实反映自己实际做过的事。

在我们的测试中,confession 方法显著提升了模型不当行为的可见性。在旨在诱发错误行为的评估中,平均“假阴性”(即模型没有遵守指令且没有坦白)的概率仅为 4.4%。

Confession 如何运作

Confession 是模型对自身行为合规性的自我报告,包括是否遵循了明确与隐含指令/策略的精神与字面要求,并指出它是否出现了“投机取巧”“奖励规避”“违规”或任何未达预期的情况。

我们的研究发现,模型可以被训练得愿意坦诚汇报自身的不足。我们基于 GPT-5 Thinking 训练了一个 confession 版本,并使用多组分布外的压力测试数据集进行评估,这些数据集旨在诱发策略性欺骗、hack、违反指令与幻觉等行为。结果显示,即便模型产生了这些不良行为,它依然很可能如实坦白。上图说明 confession 方法在不同数据集和任务中均表现有效。

在每次用户与模型交互结束、模型给出主回答之后,可以通过发送系统消息请求模型生成 confession 报告。该报告包括:

该回答应满足的所有显性与隐性指令、约束与目标列表;

对上述每项目标,回答是否真正达成的诚实、客观分析;

模型在生成回答过程中遇到的不确定性、模糊点或“难以抉择”的判断。

训练期间,一个独立的奖励模型仅对 confession 进行评分,评估其目标覆盖性、合规分析准确性及不确定性披露情况。该奖励仅影响 confession 输出,不会影响主回答。 这确保了前述关键特性:模型在 confession 里说的任何实话都不会对主回答的奖励产生负面影响。

为什么 confession 有效?

原理很简单:许多不良行为来源于模型被要求同时优化多个目标。

在强化学习中,模型看到提示、产生回答并获得奖励。随着时间推移,模型会习得能获得高分的行为。但奖励信号往往同时包含多个维度:正确性、帮助性、产品与政策要求、安全约束,以及用户偏好。当这些信号相互作用时,可能会意外引导模型走向我们不希望的方向。

例如:

关于幻觉的研究显示,有些数据集会奖励自信但错误的猜测,而不是诚实表达不确定性。

关于逢迎(sycophancy)的研究显示,当偏好信号太强时,模型可能变得过度迎合用户。

其他团队的研究显示,模型可能利用训练设置的漏洞进行奖励规避(reward hacking),在未真正遵循任务意图的情况下获得高分。

有些捷径甚至可能在部署中演化成更危险的行为。

Confession 则完全分离这些目标:

主回答继续优化所有常规因素。

Confession 只优化一个目标:诚实。

且 confession 不影响主回答奖励,这意味着 即便模型在主回答中欺骗或投机,仍有动力在 confession 中承认事实。

实验中我们观察到:模型常愿意在 confession 中承认主回答中的不当行为。

当 confession 失败时,通常原因不是故意欺骗,而是模型真的不确定或没有意识到自己犯错。

重要的是,结果显示 confession 的有效性不依赖链式思考(chain-of-thought)。即便主回答不输出思维链,confession 仍然保持诚实,表明其机制对未来模型架构具良好泛化能力。

Confession 训练甚至不需要合规性的“绝对真值标签”。

模型被奖励去生成结构化、基于证据的自我分析。研究显示,在此设定下,“诚实”倾向自然出现,因为如实说明事实比编造一个能骗过评审的虚构故事要容易得多。

论文同时讨论了 confession 的失败情况(假阴性与假阳性),以及它们如何出现。

我们得到的发现

实验中我们特意使用一个较弱的模型来评估奖励,使奖励信号具有“可被 hack” 的特性,主回答与 confession 通道均基于这一弱奖励信号训练。

结果显示:

模型学会了利用弱奖励信号,在弱模型评估下表现更“准确”,但在更强评审下真实准确率下降。

然而 confession 通道尽管共享同样弱的奖励信号,却朝相反方向发展:它学到最优策略是如实承认主回答中的 hack 行为。

随着训练进行,虽然模型在部分场景中开始“hack”主奖励,使主回答评估准确率下降,但 confession 变得越来越诚实,最终在未遵守指令时几乎 100% 坦白。

论文包含更多实验与结果,我们也将 confession 模型与未使用 confession 的对照模型进行比较,并分析了 confession 失败的情况。几乎所有失败案例都来自模型确实“困惑”——指令含糊、或模型未意识到自己犯错。(见上方假阴性示例。)

局限性

Confession 有局限:它不能防止不良行为,只能显现它。

其主要价值在于监控与诊断,无论是在训练中还是部署阶段。Confession 的作用类似链式思考监控:两者都能让隐性的决策过程显露出来。

此外,本研究只是概念验证。我们并未进行大规模训练,confession 的准确度仍不完美。要让该方法更可靠、更稳健、适用于更多模型家族和任务,还有大量工作要做。

展望

这项工作属于我们整体 AI 安全框架的一部分。Confession 是更大安全体系中的一个组件,这个体系还包含 deliberative alignment、思维链监控、指令层级化等机制。 单一方法不足以解决所有问题,我们的目标是构建一个多层次的审查与透明工具栈,相互补充。

随着模型能力进一步提升,并被用于更高风险场景,我们需要更强的工具来理解模型在做什么、为什么这么做。Confession 不是最终答案,但为透明性与可监督性增加了重要的一层。

未来,我们计划扩大 confession 的训练规模,并将其与其他透明性与安全技术(如 chain-of-thought 监控与 deliberative alignment)组合使用,以进一步确保模型严格遵循所有指令与策略(包括 Model Spec),并能如实报告自身行为。

w3ctech微信

扫码关注w3ctech微信公众号

共收到0条回复