谷歌 DeepMind 和谷歌研究团队推出了一款名为 InfAlign 的新型机器学习框架,旨在改善生成式语言模型在推理阶段的对齐能力。生成式语言模型在从训练到实际应用的过程中,经常面临不同程度的挑战,其中一个关键问题就是如何确保模型在推理阶段能够达到最佳表现。
尽管现代语言模型通过强化学习和人类反馈(如RLHF)等方法不断提高其表现,这些方法往往侧重于提升模型的“胜率”,而忽略了推理时的解码策略,如 Best-of-N 采样 和 控制解码 等。这种训练目标与实际应用之间的脱节,可能导致模型在实际使用中的效率低下,从而影响输出结果的质量和可靠性。
为了解决这一问题,DeepMind 团队开发了 InfAlign 框架,该框架将推理策略与模型对齐过程结合,力求弥补训练与实际应用之间的差距。InfAlign 通过一种 校准的强化学习 方法,调整基于特定推理策略的奖励函数,从而提升推理时的表现。尤其对于 Best-of-N 采样 和 Worst-of-N(常用于安全评估)等推理技术,InfAlign 能有效地优化模型在不同推理场景下的表现。
InfAlign 的核心算法是 校准与变换强化学习(CTRL)。该算法通过以下三个步骤来优化模型的推理过程:
通过这种方法,InfAlign 将训练目标与推理需求对齐,从而确保模型在推理时不仅提升了胜率,还能保持较高的计算效率和一致性。此外,InfAlign 的强化学习机制还增强了模型的鲁棒性,使其能够适应不同的解码策略,并生成稳定且高质量的输出。
为了验证 InfAlign 的有效性,DeepMind 团队在 Anthropic 的有用性和无害性数据集上进行了实验。结果显示,与现有方法相比,InfAlign 在 Best-of-N 采样的推理胜率上提高了 8%-12%,而在 Worst-of-N 安全评估中,推理胜率提高了 4%-9%。这些改进得益于 InfAlign 对奖励函数的精确校准,能够有效减少奖励模型中的误校准问题,确保在不同推理场景下的稳定表现。
InfAlign 标志着生成式语言模型对齐的重大进展。通过将推理感知的策略与训练过程紧密结合,InfAlign 不仅弥补了训练与部署之间的差距,还在多个推理场景下提升了模型的性能。其扎实的理论基础和实证结果使其成为改善 AI 系统对齐能力的有力工具,预示着在实际应用中将会有广泛的应用前景。
随着 InfAlign 的推出,谷歌 DeepMind 在 AI 领域的创新再次引领了新的技术浪潮,未来的生成式语言模型在推理阶段的表现将更加高效、稳定和可靠。