具身智能(Physical Intelligence)在人工智能(AI)领域迎来重大突破,推出了一种专为机器人动作设计的新型Tokenizer——FAST。这一创新不仅大幅提升了机器人动作控制模型的训练速度,达到了传统方法的5倍,还为复杂且精细的机器人任务提供了新的解决方案。
在机器人技术不断进步的今天,如何有效训练大型Transformer模型以控制机器人,尤其是执行精密任务的机器人,依然是AI研究中的一大难题。传统的视觉-语言-动作(VLA)模型,尽管在某些应用场景中取得了进展,但在需要高频、精确控制的任务上表现不佳。即使是流匹配或扩散方法,它们在处理精细控制任务时也会遭遇训练时间过长的瓶颈。
为了解决这一问题,Physical Intelligence的科学家们推出了FAST(Fast Action Sequence Tokenizer),其灵感来源于广泛应用于图像压缩的JPEG技术,特别是在处理动作序列时,利用离散余弦变换(DCT)和字节对编码(BPE)的组合,成功压缩了原始动作数据,使得训练更高效,同时提高了模型的灵活性和精确度。
FAST的设计使得机器人能够高效执行诸如折叠衣物、清理桌子和打包购物袋等精巧任务。通过压缩动作序列,FAST减少了需要训练的token数量,使得训练速度比传统模型提升了5倍之多。与传统的动作分箱离散化方法相比,FAST的训练速度和效果都达到了显著提升,极大减少了训练时间并提高了机器人控制任务的灵活性。
此外,FAST也显著改善了机器人的语言指令跟随能力。通过自然语言命令,FAST在DROID数据集上训练出了一套全新的通用机器人策略。DROID数据集包含来自世界各地的机器人操控任务,涵盖了从大学建筑到家庭环境的各种场景,这使得模型具备了在全新环境中进行任务执行的能力。
FAST使用的核心方法是通过离散余弦变换(DCT)对动作序列进行压缩,随后使用字节对编码(BPE)进一步压缩,从而将原始动作块压缩成密集的动作token序列。这些动作token每个块通常包含30到60个token,比之前的tokenization方法压缩了10倍以上。FAST能够通过简单的“下一个token预测”在高度精巧的任务上训练通用策略,从而显著提高了机器人任务的训练效率。
在FAST的基础上,Physical Intelligence还成功推出了π0-FAST,这一自回归通用策略能够在复杂任务中发挥作用,且训练速度比传统基于扩散的模型快5倍。π0-FAST继承了π0模型的核心技术,但通过引入自回归离散化方法,解决了此前模型无法完成的精巧任务。
虽然π0-FAST的自回归解码速度较慢,但相比于其他基于流匹配的模型,它在训练速度和效率上的提升已经是显著的。该模型的成功训练证明,Fast Action Sequence Tokenizer(FAST)不仅能优化机器人控制任务,还可以推动更多通用机器人策略的开发。
Physical Intelligence团队表示,他们将发布经过100万次真实机器人动作序列训练的FAST tokenizer版本,让更多研究者能够在自己的数据集上训练自己的机器人策略。只需三行代码,任何人都能利用FAST tokenizer进行动作token化,开启自己在机器人控制领域的探索。
随着FAST的推出,机器人技术的研究和开发将迎来新的高效时期,AI在具身智能领域的应用有望得到更广泛的扩展。未来,像使用语言模型一样,研究人员或许能够直接下载并使用通用的机器人策略,进一步推动自动化和智能化技术的普及。
这一突破不仅意味着机器人训练的效率大大提升,更为实现具身智能的广泛应用奠定了坚实的基础。随着更多的研究成果发布,AI驱动的机器人将在我们的日常生活中发挥越来越重要的作用,智能助手、自动化工作流将不再是遥不可及的梦想。