谷歌 DeepMind 推出新框架 InfAlign：提升语言模型推理对齐能力

2025-01-02 17:08:51 410 大屏时代

谷歌 DeepMind 和谷歌研究团队推出了一款名为 InfAlign 的新型机器学习框架，旨在改善生成式语言模型在推理阶段的对齐能力。生成式语言模型在从训练到实际应用的过程中，经常面临不同程度的挑战，其中一个关键问题就是如何确保模型在推理阶段能够达到最佳表现。

当前挑战：训练与实际应用的差距

尽管现代语言模型通过强化学习和人类反馈（如RLHF）等方法不断提高其表现，这些方法往往侧重于提升模型的“胜率”，而忽略了推理时的解码策略，如 Best-of-N 采样 和 控制解码 等。这种训练目标与实际应用之间的脱节，可能导致模型在实际使用中的效率低下，从而影响输出结果的质量和可靠性。

InfAlign：一个解决对齐问题的新框架

为了解决这一问题，DeepMind 团队开发了 InfAlign 框架，该框架将推理策略与模型对齐过程结合，力求弥补训练与实际应用之间的差距。InfAlign 通过一种 校准的强化学习 方法，调整基于特定推理策略的奖励函数，从而提升推理时的表现。尤其对于 Best-of-N 采样 和 Worst-of-N（常用于安全评估）等推理技术，InfAlign 能有效地优化模型在不同推理场景下的表现。

核心算法：校准与变换强化学习（CTRL）

InfAlign 的核心算法是 校准与变换强化学习（CTRL）。该算法通过以下三个步骤来优化模型的推理过程：

校准奖励分数：对模型的奖励进行校准，使其更加贴合推理时的需求。
根据推理策略变换奖励分数：根据具体的解码策略（如 Best-of-N 或 Worst-of-N）来调整奖励分数。
解决 KL 正则化优化问题：通过 KL 正则化来确保奖励分数的优化稳定，并在推理过程中获得最优表现。

通过这种方法，InfAlign 将训练目标与推理需求对齐，从而确保模型在推理时不仅提升了胜率，还能保持较高的计算效率和一致性。此外，InfAlign 的强化学习机制还增强了模型的鲁棒性，使其能够适应不同的解码策略，并生成稳定且高质量的输出。

实验证明：InfAlign的效果

为了验证 InfAlign 的有效性，DeepMind 团队在 Anthropic 的有用性和无害性数据集上进行了实验。结果显示，与现有方法相比，InfAlign 在 Best-of-N 采样的推理胜率上提高了 8%-12%，而在 Worst-of-N 安全评估中，推理胜率提高了 4%-9%。这些改进得益于 InfAlign 对奖励函数的精确校准，能够有效减少奖励模型中的误校准问题，确保在不同推理场景下的稳定表现。