大模型

零基础理解 VLA 原理:机器人是如何理解环境的?

VLA 里的“多模态感知”有一点不一样。它不只是让机器人看到图像,也不只是识别物体名字,而是希望模型能把视觉、语言、空间关系和任务意图放在一起理解。这里最核心的技术基础,就是 VLM,也就是 Vision-Language Model,视觉语言模型。