具身智能中 VLA 主流方案全解析:技术总结与未来展望

具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标,而视觉 - 语言 - 动作(VLA)模型作为其中的关键技术,近年来备受关注。VLA 模型能够处理视觉、语言和动作信息,使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容,对主流的 VLA 方案进行总结,包括其开源项目、核心思想、结论共识以及未来发展方向,希望能为关注具身智能领域的读者提供有价值的参考。

应用介绍

具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标,而视觉 - 语言 - 动作(VLA)模型作为其中的关键技术,近年来备受关注。VLA 模型能够处理视觉、语言和动作信息,使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容,对主流的 VLA 方案进行总结,包括其开源项目、核心思想、结论共识以及未来发展方向,希望能为关注具身智能领域的读者提供有价值的参考。

一、VLA 方案总览

(一)基于经典 Transformer 结构方案

  • 代表性开源项目ALOHA(ACT)系列、RT-1HPT等。
  • 核心思想:利用强化学习轨迹与序列建模问题结构的自然对齐性,采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模,有效提升了模型在复杂环境中的决策能力。例如,在机器人控制任务中,模型可以根据过去的状态和动作序列,预测未来的最优动作,从而更好地适应复杂环境中的变化。

 

(二)基于预训练 LLM/VLM 方案

  • 代表性开源项目RT - 2OpenVLA 等。
  • 核心思想:将 VLA 任务视为一个序列到序列的生成问题,利用预训练的语言模型(LLM)或视觉语言模型(VLM)来处理视觉和语言信息,并生成相应的动作。以 RT - 2 为例,它通过共同微调,使模型适应互联网规模的视觉问答数据和机器人数据,从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时,能够借助预训练模型对语言和视觉信息的理解,更准确地生成合适的动作指令,为机器人在复杂任务中的执行提供了有力支持。

(三)基于扩散模型方案

  • 代表性开源项目Diffusion PolicyRDT - 1B 等。
  • 核心思想:将机器人策略建模为去噪扩散概率模型(DDPM),通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术,如后退视域控制、视觉条件和时间序列扩散变压器,在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时,该模型能够有效地生成稳定且多样化的动作,为机器人在复杂环境中的动作生成提供了新的思路和方法。

(四)LLM + 扩散模型方案

  • 代表性开源项目Octoπ0 等。
  • 核心思想:结合 LLM 和扩散模型的优势,LLM 用于压缩多模态表征,扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合,在不同机器人和任务中实现了正向转移和泛化,提高了模型在复杂任务中的性能和适应性。例如,在多模态信息处理中,LLM 可以对视觉和语言信息进行初步的理解和整合,然后扩散模型根据这些信息生成精确的动作轨迹,使机器人能够更好地完成任务。

(五)视频生成 + 逆运动学方案

  • 代表性开源项目UniPiRoBoDreamerUniSimGR - 1/GR - 2 等。
  • 核心思想:先根据首帧和指令生成运动视频,再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态,然后利用逆运动学将预测的状态转换为可执行的动作,提高了动作生成的可解释性和准确性。以 UniPiRo 为例,它根据给定的初始帧和指令生成运动视频,该视频展示了机器人在未来一段时间内的预期运动轨迹,然后通过逆运动学将视频中的状态转换为具体的关节动作,使机器人能够按照预期轨迹运动,在机器人控制任务中具有重要意义。

(六)显示端到端 VLA 方案

  • 代表性开源项目:众多端到端 VLA 模型,如部分基于 Transformer 的模型等。
  • 核心思想:将视觉语言信息压缩成联合的表征,再映射到动作空间生成动作。这些模型通过直接处理多模态信息,减少了中间环节的信息损失,提高了模型的效率和准确性。在实际应用中,模型可以直接从视觉和语言输入中提取关键信息,快速生成相应的动作。例如,模型在接收到将蓝色杯子从桌子上拿起并放到厨房的架子上的指令和对应的视觉场景后,能够直接对视觉中的物体进行识别、定位,结合语言指令理解任务目标,然后生成一系列精确的动作指令,如控制机械臂移动到杯子上方、调整夹爪姿态、抓取杯子、移动到架子位置并放置杯子等,整个过程无需复杂的中间转换,有效提高了机器人的响应速度和执行准确性。

(七)隐式端到端 VLA 方案

  • 代表性开源项目:如利用人类视频训练世界模型的相关项目(如 SWIM 等)。
  • 核心思想:利用当前的视频扩散模型预测未来状态,再通过逆运动学生成动作,同时注重提高模型的可解释性。例如,SWIM 通过使用人类视频训练世界模型,并结合视觉可供性地图推断目标姿势,实现了知识从人类数据到机器人控制的有效转移。该模型从人类视频中学习到人类在不同场景下的行为模式,然后利用这些知识预测机器人在相似场景下应采取的动作,为机器人在复杂环境中的决策提供了更可靠的依据。

(八)分层端到端 VLA 方案

  • 代表性开源项目:结合了高层任务规划和低层控制策略的分层模型(如一些包含 LLM 作为高层规划器的项目)。
  • 核心思想:充分利用大小模型的特点,高层任务规划器将复杂任务分解为子任务,低层控制策略执行子任务,以提升模型的泛化性和执行效率。这种分层结构使模型能够更好地处理长时域任务,提高了机器人在复杂任务中的执行能力和适应性。例如,在执行整理房间这样的长时域任务时,高层规划器可以将任务分解为捡起物品”“移动到指定位置”“放置物品等子任务,低层控制策略则负责具体执行这些子任务,使机器人能够有条不紊地完成整个任务。

 

采购/合作 点赞(0)

立即下载

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部