首页 > 3D快报内容详情

谷歌 DeepMind 推出新框架 InfAlign:提升语言模型推理对齐能力

6天前 28 大屏时代

谷歌 DeepMind 和谷歌研究团队推出了一款名为 InfAlign 的新型机器学习框架,旨在改善生成式语言模型在推理阶段的对齐能力。生成式语言模型在从训练到实际应用的过程中,经常面临不同程度的挑战,其中一个关键问题就是如何确保模型在推理阶段能够达到最佳表现。

futuristic-3308094_1280.jpg

当前挑战:训练与实际应用的差距

尽管现代语言模型通过强化学习和人类反馈(如RLHF)等方法不断提高其表现,这些方法往往侧重于提升模型的“胜率”,而忽略了推理时的解码策略,如 Best-of-N 采样控制解码 等。这种训练目标与实际应用之间的脱节,可能导致模型在实际使用中的效率低下,从而影响输出结果的质量和可靠性。

InfAlign:一个解决对齐问题的新框架

为了解决这一问题,DeepMind 团队开发了 InfAlign 框架,该框架将推理策略与模型对齐过程结合,力求弥补训练与实际应用之间的差距。InfAlign 通过一种 校准的强化学习 方法,调整基于特定推理策略的奖励函数,从而提升推理时的表现。尤其对于 Best-of-N 采样Worst-of-N(常用于安全评估)等推理技术,InfAlign 能有效地优化模型在不同推理场景下的表现。

核心算法:校准与变换强化学习(CTRL)

InfAlign 的核心算法是 校准与变换强化学习(CTRL)。该算法通过以下三个步骤来优化模型的推理过程:

  1. 校准奖励分数:对模型的奖励进行校准,使其更加贴合推理时的需求。
  2. 根据推理策略变换奖励分数:根据具体的解码策略(如 Best-of-N 或 Worst-of-N)来调整奖励分数。
  3. 解决 KL 正则化优化问题:通过 KL 正则化来确保奖励分数的优化稳定,并在推理过程中获得最优表现。

通过这种方法,InfAlign 将训练目标与推理需求对齐,从而确保模型在推理时不仅提升了胜率,还能保持较高的计算效率和一致性。此外,InfAlign 的强化学习机制还增强了模型的鲁棒性,使其能够适应不同的解码策略,并生成稳定且高质量的输出。

实验证明:InfAlign的效果

为了验证 InfAlign 的有效性,DeepMind 团队在 Anthropic 的有用性和无害性数据集上进行了实验。结果显示,与现有方法相比,InfAlign 在 Best-of-N 采样的推理胜率上提高了 8%-12%,而在 Worst-of-N 安全评估中,推理胜率提高了 4%-9%。这些改进得益于 InfAlign 对奖励函数的精确校准,能够有效减少奖励模型中的误校准问题,确保在不同推理场景下的稳定表现。

InfAlign 带来语言模型对齐的新进展

InfAlign 标志着生成式语言模型对齐的重大进展。通过将推理感知的策略与训练过程紧密结合,InfAlign 不仅弥补了训练与部署之间的差距,还在多个推理场景下提升了模型的性能。其扎实的理论基础和实证结果使其成为改善 AI 系统对齐能力的有力工具,预示着在实际应用中将会有广泛的应用前景。

随着 InfAlign 的推出,谷歌 DeepMind 在 AI 领域的创新再次引领了新的技术浪潮,未来的生成式语言模型在推理阶段的表现将更加高效、稳定和可靠。

相关标签: InfAlign 推理 模型 对齐 校准 奖励 生成式 DeepMind 胜率 BestofN