香港大学与快手科技日前宣布,他们联合推出了一项革命性的科研成果——GameFactory框架。该框架旨在解决目前游戏视频生成领域中的一个关键难题——场景泛化。GameFactory通过创新性地使用预训练的视频扩散模型,成功实现了多样化的游戏场景生成,突破了现有方法对特定数据集的过度依赖,标志着游戏引擎生成技术迈向了新的里程碑。
近年来,视频扩散模型在视频生成和物理模拟领域展现出强大的潜力,尤其在游戏引擎开发中,引起了广泛关注。这些模型,类似于动作可控的视频生成模型,能够响应用户的键盘和鼠标等输入,在实时生成的过程中保持较高的互动性。然而,尽管现有的生成方法已经取得了显著进展,游戏场景泛化依然是一个无法回避的挑战。
现有的游戏引擎通常依赖于特定的游戏数据集,但由于数据标注的高昂成本和场景多样性的限制,现有技术难以在开放域场景中生成新颖且多样的游戏环境。为了打破这一瓶颈,香港大学与快手科技提出了GameFactory框架,致力于利用预训练的视频扩散模型,在无需大量标注数据的前提下,生成更多样化的游戏场景。
GameFactory框架的创新性不仅体现在其多样化的游戏场景生成能力上,还在于其采用了独特的三阶段训练策略,有效克服了开放域先验知识与有限游戏数据集之间的“域差距”。
通过这一三阶段训练策略,GameFactory成功实现了生成高度受控且多样化的游戏视频,不再依赖于特定数据集,从而有效解决了游戏场景泛化的问题。
在研究过程中,GameFactory还评估了不同的控制机制,旨在进一步优化生成视频的互动性和控制精度。研究表明,交叉注意力机制在处理离散控制信号(如键盘输入)方面表现优于传统的拼接方法,而在处理连续控制信号(如鼠标移动)时,拼接方法则显示出更为优异的表现。这使得GameFactory能够在生成视频时更加精准地响应用户输入,进一步提升了游戏视频生成的流畅性和互动性。
此外,GameFactory还支持自回归动作控制,能够生成无限长度的交互式游戏视频,使得用户可以在虚拟世界中进行更长时间的沉浸式互动,提升了游戏视频的可玩性和多样性。
为了进一步推动GameFactory框架的应用,研究团队还发布了一个高质量的动作标注视频数据集——GF-Minecraft。该数据集专为训练和评估GameFactory框架而设计,包含了丰富的游戏场景和高精度的动作标注数据。研究人员表示,GF-Minecraft将为学术界和行业提供宝贵的数据支持,加速游戏视频生成技术的进一步发展。
GameFactory框架的推出无疑是游戏生成技术领域的一大突破。通过解决场景泛化的难题,GameFactory为未来的多功能游戏引擎铺平了道路。随着技术的不断成熟,这一框架有望在更多类型的游戏中得到应用,为玩家带来更加多样化和个性化的游戏体验。
无论是游戏开发者还是玩家,都将从这一创新技术中受益,享受更加丰富、沉浸的游戏内容。未来,随着AI技术和视频生成技术的不断发展,我们有理由相信,GameFactory框架将成为引领游戏行业创新的重要工具,推动游戏创作进入一个全新的时代。