具身智能新突破！Physical Intelligence推出机器人动作Tokenizer，训练提速5倍

2025-01-19 16:24:24 384 大屏时代

具身智能（Physical Intelligence）在人工智能（AI）领域迎来重大突破，推出了一种专为机器人动作设计的新型Tokenizer——FAST。这一创新不仅大幅提升了机器人动作控制模型的训练速度，达到了传统方法的5倍，还为复杂且精细的机器人任务提供了新的解决方案。

640 (4).png

突破性创新：FAST提高机器人控制训练效率

在机器人技术不断进步的今天，如何有效训练大型Transformer模型以控制机器人，尤其是执行精密任务的机器人，依然是AI研究中的一大难题。传统的视觉-语言-动作（VLA）模型，尽管在某些应用场景中取得了进展，但在需要高频、精确控制的任务上表现不佳。即使是流匹配或扩散方法，它们在处理精细控制任务时也会遭遇训练时间过长的瓶颈。

为了解决这一问题，Physical Intelligence的科学家们推出了FAST（Fast Action Sequence Tokenizer），其灵感来源于广泛应用于图像压缩的JPEG技术，特别是在处理动作序列时，利用离散余弦变换（DCT）和字节对编码（BPE）的组合，成功压缩了原始动作数据，使得训练更高效，同时提高了模型的灵活性和精确度。

训练效率提升五倍，精细任务可控

FAST的设计使得机器人能够高效执行诸如折叠衣物、清理桌子和打包购物袋等精巧任务。通过压缩动作序列，FAST减少了需要训练的token数量，使得训练速度比传统模型提升了5倍之多。与传统的动作分箱离散化方法相比，FAST的训练速度和效果都达到了显著提升，极大减少了训练时间并提高了机器人控制任务的灵活性。

此外，FAST也显著改善了机器人的语言指令跟随能力。通过自然语言命令，FAST在DROID数据集上训练出了一套全新的通用机器人策略。DROID数据集包含来自世界各地的机器人操控任务，涵盖了从大学建筑到家庭环境的各种场景，这使得模型具备了在全新环境中进行任务执行的能力。

FAST训练方法如何工作？

FAST使用的核心方法是通过离散余弦变换（DCT）对动作序列进行压缩，随后使用字节对编码（BPE）进一步压缩，从而将原始动作块压缩成密集的动作token序列。这些动作token每个块通常包含30到60个token，比之前的tokenization方法压缩了10倍以上。FAST能够通过简单的“下一个token预测”在高度精巧的任务上训练通用策略，从而显著提高了机器人任务的训练效率。