摘要:具身智能是一种基于物理身体与动态、开放的物理环境交互以产生智能行为的系统,作为人工智能与机器人学交叉领域,其核心是融合感知、行动与认知,区别于传统 AI 的静态数字环境与单一模态输入输出;发展历经 1950s-1990s 技术萌芽、1990s-2020s 技术积累、2020s 至今技术突破三阶段,当前因 AI 需物理载体、传统自动化机械需智能 “大脑” 而爆发;核心技术涵盖本体(物理载体)、智能(多模态大模型驱动)、环境(交互场景)三大要素,技术体系分数据层、关键技术层等多层级,训练依赖模仿学习与强化学习;产业链含上游原材料零部件、中游制造集成、下游多领域应用,国内有宇树、优必选、智元机器人等企业,国外有波士顿动力、特斯拉等代表;未来以具身通用智能为方向,但面临硬件、数据、成本、伦理等多方面挑战,且全球 AI 机器人市场规模预计 2032 年达 824.7 亿美元,人形机器人市场 2035 年达 378 亿美元。

一、具身智能基本概念
- 定义具身智能(Embodied Intelligence)是基于物理身体进行感知和行动的智能系统,通过实体智能体与环境动态交互获取信息、理解问题、决策并行动,是人工智能与机器人学交叉的前沿领域,核心是感知、行动与认知的深度融合。
- “具身” 含义“具身”(Embodied)源自哲学、认知科学领域,意为 “使…… 进入身体”,具身智能即 “给智能一个身体”。
- 与传统 AI 的对比| 维度 | 传统 AI (如 ChatGPT, 图像识别) | 具身 AI (如家庭机器人,自动驾驶) || 环境 | 静态、封闭的数字世界 | 动态、开放的物理世界 || 输入 | 单一或特定模态 (文本、图片) | 多模态、实时传感器数据流 || 输出 | 数字信号 (文本、标签、概率) | 物理动作 (移动、抓取、说话) || 目标 | 模式识别、内容生成 | 在环境中完成具体物理任务 || 学习 | 基于大规模静态数据集 | 通过与环境的实时交互和试错 |
- 与其他智能类型的区分
- 具身智能强调通过物理身体与环境直接交互产生认知和行动,核心是 “感知 - 行动闭环”。
- 离身智能不依赖物理身体,在虚拟或符号空间处理信息、推理。
- 反身智能能监控、评估并调整自身内部状态、决策过程,具备一定 “自我意识”。
- 研究意义
- 宏观意义推动我国各领域数智化转型,支撑制造强国、网络强国和数字中国建设,促进实体经济发展。
- 科研意义是通用人工智能的未来方向,推动 AI 从虚拟走向现实、从专用迈向通用,助力理解智能本质。
- 应用意义提升机器人、自动化设备智能化水平,增强环境适应性和任务执行能力,应用于服务、医疗、教育等行业。
- 政策支持| 发布时间 | 发布单位 | 政策名称 | 重点内容 || 2025 年 3 月 | 国务院 | 《2025 年政府工作报告》 | 首次将 “具身智能” 和 “智能机器人” 纳入国家战略,培育未来产业 || 2024 年 7 月 | 国务院国资委、发改委 | 《关于规范中央企业采购管理工作的指导意见》 | 鼓励中央企业在工业机器人等领域采购具身智能相关创新产品 || 2024 年 4 月 | 工信部等部门 | 《推动工业领域设备更新实施方案》 | 推动工业机器人等通用智能装备在生产、仓储物流等环节更新 || 2024 年 1 月 | 工信部等部门 | 《关于推动未来产业创新发展的实施意见》 | 2027 年人形机器人成创新标志性产品,突破高端装备技术 || 2023 年 12 月 | 工信部、应急管理部 | 《关于加快应急机器人发展的指导意见》 | 2025 年研发先进应急机器人,建试点场景及测试基地 || 2023 年 11 月 | 工信部 | 《人形机器人创新发展指导意见》 | 2025 年初步建人形机器人创新体系,2027 年形成完整产业链 || 2023 年 8 月 | 工信部等部门 | 《新产业标准化领航工程实施方案 (2023-2035 年)》 | 研制人形机器人标准,涵盖术语、核心零部件等 || 2023 年 4 月 | 工信部、中央网信办、发改委等 | 《关于推进 IPV6 技术演进和应用创新发展的实施意见》 | 推动 IPV6 与 5G、AI 融合,支持具身智能在工业互联网应用 || 2023 年 1 月 | 工信部等部门 | 《“机器人 +” 应用行动实施方案》 | 设专项基金支持机器人研发,加速具身智能多领域落地 || 2022 年 8 月 | 工信部等部门 | 《信息通信行业绿色低碳发展行动计划 (2022-2025 年)》 | 推动 IPV6 与 5G、AI 融合,拓展智能机器人应用场景 |
二、具身智能发展演进
- 发展阶段划分
技术萌芽阶段(1950s-1990s)
- 1927 年,美国西屋诞生第一个电驱人形机器人 “Televox”。
- 1950 年,艾伦・图灵发表《Computing Machinery and Intelligence》,首次提出具身智能概念。
- 1960 年,首台工业机器人 Unimate 在美国通用汽车投入使用。
- 1968 年,斯坦福研究院研制世界首台移动机器人 Shakey。
- 1973 年,日本早稻田大学研制第一台人形机器人 WABOT-1。
- 1986 年,日本本田人形机器人 ASIMO-E0 问世;美国罗德尼・布鲁克斯提出通过感知和动作驱动设计智能机器。
- 1991 年,麻省理工学院(MIT)Cog 项目研究仿人形机器人认知能力;布鲁克斯发表《intelligence Without Representation》,提出智能可通过行动与环境交互涌现。
- 技术积累阶段(1990s-2020s)
- 1990 年,MIT 推出模仿人头部的机器人 Kismet。
- 1991 年,布鲁克斯研发自主行走的六条腿机器人 Genghis。
- 1999 年,日本索尼推出犬型机器人爱宝。
- 2002 年,丹麦 IRobot 推出世界首台家用扫地机器人 Roomba。
- 2004 年,Aldebaran 发布能识别情感的机器人 Nao。
- 2006 年,Hanson Robotics 发布可模拟人类面部表情的机器人。
- 2009 年,谷歌推出 Prius 自助驾驶汽车。
- 2010 年,柳树车库发布开源机器人操作系统 ROS。
- 2013 年,美国波士顿动力发布机器人 Atlas。
- 2015 年,软银发布机器人 “Papper”。
- 2016 年,法国 Inria Flower 实验室开发 POPPY 上市;谷歌开源 TensorFlow 深度学习平台和 Dopamine 强化学习平台。
- 2018 年,中国优必选 Walker 系列机器人上市。
- 2020 年,美国敏捷机器人公司 DIGIT 发布;中国达闼机器人发布 Cloud Ginger XR-1。技术突破阶段(2020s - 至今)
- 2021 年,优必选 Walker X 实现中国双足机器人行走能力突破。
- 2022 年,小米发布 CyberOne;美国特斯拉发布机器人 Optimus,搭载自动驾驶级 FSD 芯片。
- 2023 年,英伟达发布多模态具身智能系统 VIMA;李飞飞等提出 VoxPoser 系统(LLM 接入机器人);英国 Engineered Arts 为 Ameca 接入 GPT-3/4;中国傅利叶推出 GR-1、宇树科技发布 Unitree H1、智元机器人发布远征 A1;谷歌 DeepMind 推出机器人模型 Robotics Transformer 2(RT-2)。
- 2024 年 3 月,OpenAI 与 Figure 合作推出 Figure 01 机器人;智元机器人发布 “远征” 与 “灵犀” 系列商用人形机器人。
- 2025 年,挪威 1X Technologies 发布仿人体骨骼结构 Neo Gamma 机器人。
- 无智能阶段:仅执行简单预设任务,无自主性和适应性。
- 基础智能阶段:具备基本感知能力,能对外界做简单反应。
- 中等智能阶段:可进行复杂感知处理,如图像、语音识别。
- 高度智能阶段:有较高自主性和适应性,能自我学习优化,执行复杂任务。
- 超级智能阶段:理论上具备超越人类的智能,能创新和自我意识决策。
三、具身智能核心技术
- 三大核心要素
- 本体:智能体的物理载体,具备感知、运动和操作能力,形态功能影响任务执行能力。
- 智能:负责感知、理解、决策和控制的核心模块,由多模态大模型(LLM、VLM 等)驱动,整合多模态数据生成行动策略。
- 环境:智能体交互的物理世界,含动态场景和任务目标,复杂性要求智能体有强适应和实时学习能力。

3 技术体系- 数据层真实世界数据(视觉、听觉、压力等物理交互数据)、仿真合成数据,含安全与隐私保护。
- 任务层环境重建、定位、状态检测、人机交互、多机交互等。
- 关键技术层视觉模型、大语言模型(LLMs)、视觉语言模型(VLMs)、视觉语言动作模型(VLAS)、任务规划算法、动作控制算法、强化学习范式升级、3D 重建与场景理解等。
- 基础支撑层操作系统、中间件、云计算与边缘计算、仿真平台。
5 组成部分

- 感知模块通过传感器(摄像头、激光雷达等)收集环境信息,整合多模态数据,分物体感知(几何、属性)、场景感知(重建、理解)、行为感知(手势、姿态)、表达感知(情感、意图)。
- 决策模块基于感知数据,大模型进行任务规划和推理,分解抽象任务为子任务,生成行动序列,功能含环境理解、任务规划、运动规划、学习与适应。
- 行动模块执行决策,如移动(轮子、履带等)、操作(机械臂、灵巧手)、交互(屏幕、语音)。
- 反馈模块:“调节器”,依赖大模型处理交互数据,优化感知、决策、行动,形成闭环,提升适应性和智能化。
- 模仿学习:观察模仿专家行为学习任务,优势是快速学习专家策略,无需复杂探索;劣势是泛化能力差,受限于专家数据。
- 强化学习:智能体与环境交互学习最佳策略,最大化累积奖励,优势是能探索未知策略,处理动态环境;劣势是学习慢,需大量试错,奖励函数设计难。
- 真实世界数据采集方式有人类动作捕捉、机器人遥操作,原理是物理环境中记录动作轨迹与环境反馈,优势是质量高、贴近真实,含噪声和不确定性;劣势是成本高、扩展性差。
- 仿真世界数据采集方式是虚拟环境模拟,原理是计算机生成交互数据,优势是成本低、效率高、场景多样;劣势是存在 “仿真与现实鸿沟”。

- 大语言模型(LLM)如 GPT 系列,用于自然语言理解和任务规划,实例是 OpenAI 的 GPT-4 用于机器人任务规划。
- 视觉语言模型(VLM)如 PaLM-E,结合视觉和语言信息,提升环境感知,实例是 Google 的 PaLM-E 用于机器人导航和物体识别。
- 视觉语言动作模型(VLA)如 VoxPoser,直接生成可执行动作指令,实例是 VoxPoser 用于机械臂控制。

四、具身智能产业链
- 产业链结构
- 上游原材料和零部件供应,含芯片(NVIDIA、地平线等)、传感器(力传感器、IMU 惯性传感器等)、电机(空心杯电机、伺服电机)、减速器(精密、RV、谐波)、丝杠(梯形、滚珠等)、驱动器、轴承、骨骼架、电子皮肤、电池、通信模组、线缆线束等。
- 中游制造和集成,含本体制造(工业、服务、特种机器人)、系统集成(行业解决方案、数据解决方案)。
- 下游
- 芯片提供计算能力,未来有望端侧集成,国外有 NVIDIA(Orin 芯片)、Intel(Mobileye)、Tesla(Dojo 芯片),国内有地平线(征程系列)、寒武纪(思元系列)、华为(昇腾系列)、紫光国微。
- 传感器收集多维数据,力传感器(六维力传感器壁垒高)、IMU 惯性传感器(导航与平衡)是国产替代重点,国内厂商缩小与外资差距。
- 控制器处理传感器数据,发出控制指令。
- 电机驱动执行机构,伺服电机精确控制,空心杯电机是灵巧手核心。
- 通信模组设备间数据传输,确保协同。
- 能源管理提供稳定能源,含高性能电池、电源管理系统。
- AI 算法具身智能 “大脑”,分端到端大模型(直接从指令到执行)和分层具身大模型(分解感知、规划等)。
- 操作系统统一软件平台,支持应用运行管理。
- 云服务数据存储、处理、分析,支持大规模应用。
- 中间件连接不同系统和组件
- 科技大厂小米、华为、阿里、腾讯、百度等。
- 机器人企业优必选、宇树、傅利叶、达闼、乐聚、智元等。
- 汽车企业小米、广汽、长安汽车、比亚迪、小鹏汽车等。
- || 银河通用 | 2023.5 | 人形机器人 | GALBOT G1、Galbot S1
- || 星动纪元 | 2023.8 | 人形机器人 | 小星、小星 Max、星动 L7、星动 Q5
- || 有鹿机器人 | 2023.2 | 具身智能大模型 | Master 2000、Lumos LUS 2、Lumos MoS || 智平方科技 | 2023.4 | 人形机器人 | AlphaBot
- || 戴盟机器人 | 2021.12 | 人形机器人 | Sparky 1、DM-TacW、DM-Hand1、DM-Exton
- || 艾欧智能 | 2023.5 | 数据及系统方案 | 头盔和动作捕捉套装 || 星海图 | 2023.9 | 其他机器人 | 超轻型力控机械臂 A1 || 若愚科技 | 2023.4 | 具身智能大模型 | 若愚・九天大模型
- || 开普勒探索 | 2023.8 | 人形机器人 | 先行者 K1、先行者 S1 和先行者 D1 || 雅可比机器人 | 2023.4 | 具身智能大模型 | J-Mind、J-Box
- || 智元机器人 | 2023.2 | 人形机器人 | 远征 A2、灵犀 X2、精灵 G1、D1、绝尘 C5
- || 帕西尼感知科技 | 2021.6 | 人形机器人 | TORA、TORA-ONE、DexH5、PX-6AX、PX-3A、GMH18 || 逐际动力 | 2022.1 | 人形机器人 | CL-1、CL-2、TRON1、W1、LimXOl i
- || 星尘智能 | 2022.12 | 人形机器人 | Astribot S1、星动 L7
- || 穹彻智能 | 2023.11 | 具身智能大模型 | Noematrix Brain-01、Noematrix Brain-Plus || 跨维智能 | 2021.6 | 数据及系统方案 | Kingfisher、RoPlot、DexVerse、Kingfisher Pro、RoPiot Max
- || 加速进化 | 2023.6 | 人形机器人 | BR002 || 松延动力 | 2023.9 | 人形机器人 | Song、Dora、N1、N2、Hobbs || XSquare | 2023.12 | 具身智能大模型 | 具身大模型
- || 月泉仿生 | 2023.6 | 其他机器人 | 行走机器人 |
- || 本田 | 1948 年(文档中 “211” 应为笔误) | 人形机器人 | ASIMO、E1、E2、E3、E4、E5、E6、P1、P2、P3、P4、HRP1S
- || 波士顿动力 | 1992 年(文档中 “2013” 应为笔误) | 人形机器人 | Atlas
- || 特斯拉 | 2021 年 | 人形机器人 | Optimus、Cybercab、Cybervan || Covariant | 2017 年 | 具身智能大模型 | Covariant Brain、RFM-1
- || Figure | 2022.1 | 人形机器人 | Figure 01、Figure 02
- || Agility Robotics | 2015 年 | 人形机器人 | Digit
- || 1X Technologies | 2014.3 | 人形机器人 | NEO || Skild AI | 2023.5 | 具身智能大模型 | Skild Brain
- || Sanctuary AI | 2018 年 | 人形机器人 | 第七代 Phoenix || World Labs | 2024.4 | 具身智能大模型 | 理解三维物理世界的模型
- || Apptronik | 2016.1 | 人形机器人 | Apollo
- || Menteer Robotics | 2022 年 | 人形机器人 | - |
五、具身智能未来发展
- 发展方向 - 具身通用智能(Embodied AGI)
- 多模态融合提升视觉、语言、触觉等多模态数据融合能力,增强对复杂环境的理解。
- 跨领域迁移开发跨领域迁移的智能体,使其在不同任务和环境中表现出色。
- 主要挑战
- 硬件:触觉传感器在高精度、低能耗、轻质化上不及人类皮肤;机器人关节功率密度低于人类肌肉,运动灵活性和能效不足。
- 算法:多源传感器数据(多模态)高效处理与准确决策难度大。
- 技术方面
- 数据方面依赖海量、高质量、融合物理交互反馈的多模态数据,但真实环境数据获取成本高,仿真数据存在 “仿真与现实鸿沟”。
- 成本方面硬件和算法成本高,需开发低成本高性能传感器、执行器,通过模型压缩降低大模型计算需求。
- 伦理与道德方面。责任界定(如机器人伤人责任归属)未解决,现有法律框架不足;家庭护理等场景需平衡需求与伦理准则。
- 安全与隐私方面需制定规范确保系统安全,保障物理安全;保护用户数据隐私。
- 资金和人才方面技术研发需长期资金投入,创业企业易面临资金断链;亟需懂 AI、大模型且懂机械自动化的复合型人才,目前稀缺。
- 其他方面工具链、标准化、能源效率等问题待解决,需长期摸索。
- 2023 年,全球人工智能(AI)机器人市场规模达 143.0 亿美元,预计 2032 年达 824.7 亿美元,复合年增长率为 21.50%。
- 2024 年 2 月高盛预测,全球人形机器人市场规模 2035 年将达 378 亿美元,出货量达 140 万台。
六、具身智能应用场景
一、具身智能应用场景
具身智能凭借 “感知 - 决策 - 执行” 的闭环能力,已在多领域落地,覆盖工业、服务、医疗、教育、交通等关键场景,具体如下:
1. 工业制造领域
- 核心场景仓储与工业分拣、生产线操作、质量检验、安防巡检等。在仓储分拣中,具身智能系统需完成多品类商品的实时识别、抓取与分类,应对动态货架布局与非刚性物体(如包裹、易碎品)处理需求,例如电商仓储中心的货盘分拣任务,需通过感知系统定位商品位置与朝向,决策模块制定抓取优先级,控制系统调度机械臂精准操作并规避碰撞。
- 技术落地依赖高精视觉(如多摄像头融合 + 3D 扫描)、动作规划系统(如强化学习训练的抓取策略)及闭环控制(如压力 / 吸力传感器反馈校正),典型案例为 Covariant Brain 系统,可实现一天上万次抓取动作,容错率超 85%。
2. 医疗康复领域
- 核心场景康复助力、动作辅助、情绪检测协同、手术操作辅助、病房监护等。该场景核心需求是 “患者安全、精准辅助、低功耗闭环”,例如康复机器人需根据患者动作节奏提供适应性助力,同时通过传感器监测患者情绪与身体状态,避免动作误差对患者造成伤害。
- 技术特点:强调控制器安全约束与低延迟部署,需设计严格的反馈机制(如力控与柔顺控制),推荐低功耗设备,同时平衡辅助精度与系统鲁棒性,避免因硬件性能不足导致的操作风险。
3. 家庭服务领域
- 核心场景家务处理(如清洁、物品整理)、陪伴互动、养老护理等。从实验室走向家庭需应对复杂感知需求,例如家庭环境中家具布局多样、障碍物随机(如宠物、儿童玩具),需具身智能体实现多模态语义对齐与世界模型构建,理解自然语言指令(如 “擦桌子”“整理衣物”)并转化为物理动作。
- 产品案例特斯拉 Optimus、星动纪元 STAR1 等人形机器人,其中 STAR1 通过轻量化设计(重量 45kg,功耗降低 40%)适配家庭空间,李飞飞团队推出的 BEHAVIOR Robot Suite(BRS)可接管倒垃圾、清洁马桶等多样化家务任务。
4. 教育与社交领域
- 核心场景儿童教育、多轮交互陪伴、情绪感知互动等。需实现 “软性行为智能”,例如教育机器人需结合多模态感知(语音、表情识别)理解儿童需求,通过拟人化动作与语言开展教学,同时平衡拟人表现与系统稳定性,避免因交互逻辑漏洞影响用户体验。
- 典型系统Furhat 交互机器人,集成多轮交互、情绪感知与行为策略三合一设计,可通过表情与动作增强社交亲和力,适用于课堂教学、儿童陪伴等场景。
5. 交通出行领域
- 核心场景自动驾驶、物流配送(无人机 / 无人车)、多车协作等。作为 “非人形体” 具身智能的典型,自动驾驶需通过传感器(摄像头、雷达)实时感知路况,结合行为规划系统与场景图认知模型实现自主导航、避障与多车协同(如 V2X 感知融合),例如 Wayve 采用端到端强化学习实现自动驾驶落地,减少对预编程规则的依赖。
- 技术核心依赖多模态感知融合(如视觉 + 雷达数据协同)、行为决策算法(如场景图认知)及低延迟控制,确保在动态交通环境中快速响应突发情况(如行人横穿、车辆变道)。
6. 其他领域
还包括科学研究(深海 / 太空 / 高辐射环境探索)、军事国防(机器狼、军用无人机、物资运输)、文旅服务(智能导游、沉浸式互动体验)等,例如文旅场景中,具身智能导游可通过多模态感知监测游客状态,提供个性化休息建议与回忆相册生成服务,增强游客沉浸感。
二、全球和国内具身智能市场竞争分析(以特斯拉、宇树、智元为例)
1. 全球市场竞争格局
全球具身智能市场呈现 “科技巨头引领、细分赛道差异化竞争” 格局,核心参与者包括特斯拉(美国)、Boston Dynamics(美国)、Figure(美国)、本田(日本)等,国内以宇树科技、智元机器人、优必选等为代表,其中特斯拉、宇树、智元的竞争差异集中在技术路线、产品定位与场景布局:
| 企业 | 国家 | 核心产品 | 技术路线 | 场景定位 | 竞争优势 | 竞争劣势 |
|---|---|---|---|---|---|---|
| 特斯拉 | 美国 | Optimus 人形机器人 | 端到端控制(直接映射感知到动作),搭载自动驾驶级 FSD 芯片与视觉神经网络预测技术 | 工业制造(汽车工厂测试)、家庭服务(未来拓展) | 1. 自动驾驶技术迁移优势,视觉感知与决策算法成熟;2. 规模化生产能力强,成本控制潜力大;3. 品牌影响力与全球市场布局完善 | 1. 家庭场景适配性待验证,轻量化与低功耗设计不足;2. 多模态交互(如触觉、情绪感知)技术积累较少 |
| 宇树科技 | 中国 | Unitree H1 人形机器人、仿生四足机器人(机器狗) | 分层控制(云端大模型规划 + 本地 “小脑” 运动控制),聚焦运动灵活性与地形适应能力 | 工业巡检、家庭陪伴、特种环境(如废墟救援) | 1. 四足机器人技术领先,地形适应能力强(如崎岖山路、废墟);2. 仿生触觉皮肤技术突破(0.01mm 压力感知);3. 国内场景适配快,如参与央视春晚演出,贴近消费级市场 | 1. 人形机器人商业化进度较慢,工业场景落地案例较少;2. 核心零部件(如高精度减速器)依赖进口风险 |
| 智元机器人 | 中国 | 远征 A1/A2、灵犀 X2 人形机器人 | ViLLA(Vision-Language-Latent-Action)架构,融合 VLM+MoE 结构,提升任务成功率(从 46% 至 78%) | 工业制造、公共服务(如展厅讲解) | 1. 多模态大模型(VLA)技术领先,自主决策能力强;2. 商用人形机器人产品线丰富(“远征”“灵犀” 系列);3. 国内政策支持下,场景落地速度快(如参与世界机器人大会) | 1. 全球市场布局薄弱,海外品牌认知度低;2. 高端芯片依赖进口(如 NVIDIA Orin),算力自主可控待提升 |
2. 竞争核心维度
- 技术壁垒国际企业(如特斯拉)在芯片算力、端到端算法上领先,国内企业(如宇树、智元)聚焦运动控制、本土场景适配与核心零部件国产化(如宇树的触觉皮肤、智元的 VLA 模型)。
- 场景落地国际企业优先布局工业与全球消费市场,国内企业则依托政策支持(如深圳 45 亿元专项补助),快速渗透工业巡检、家庭陪伴等本土场景,例如智元机器人在 2025 年世界机器人大会展示多场景解决方案。
- 生态构建国际企业依赖全球化供应链与开源平台(如特斯拉可能开放机器人操作系统),国内企业则通过产业集群(如深圳机器人产业集群,一小时完成零部件采购)实现协同创新,降低成本。
三、具身智能产业链与多模态模型的关系
具身智能产业链涵盖上游(硬件)、中游(技术集成)、下游(应用),多模态模型(LLM、VLM、VLA)作为 “智能中枢”,贯穿产业链各环节,是连接硬件与场景应用的核心纽带,具体关系如下:
1. 多模态模型是产业链中游的 “技术核心”,激活上游硬件潜能
- 产业链中游定位中游负责技术整合,通过 AI 算法、操作系统、云服务将上游硬件(芯片、传感器、电机)转化为智能系统,其中多模态模型是 AI 算法的核心,决定具身智能的 “认知与决策能力”。
- 对上游硬件的需求驱动
- 多模态模型(如 VLA)需处理视觉、语言、触觉等多源数据,推动上游传感器升级(如 3D 视觉传感器、六维力传感器),例如特斯拉 Optimus 配置超 30 个力传感器,满足 VLA 模型的精细操作数据需求。
- 大模型算力需求驱动上游芯片技术迭代,例如 NVIDIA Orin、华为昇腾系列芯片需提供高效算力支持 LLM/VLM 的实时推理,国内地平线征程系列芯片则针对本土场景优化算力分配。
2. 多模态模型定义产业链下游的 “场景能力”,拓展应用边界
- 决策能力支撑下游应用场景的复杂程度依赖多模态模型的任务处理能力,例如:
- 工业分拣场景中,LLM 理解自然语言指令(如 “易碎品放左箱”),VLM 识别商品位置与属性,VLA 模型生成抓取动作序列,三者协同实现 “指令 - 感知 - 动作” 闭环。
- 家庭服务场景中,多模态语义对齐(LLM+VLM)帮助机器人理解模糊指令(如 “整理客厅”),构建世界模型(如家具布局、障碍物位置),避免动作失误。
- 场景泛化能力提升多模态模型(如智元的 ViLLA 架构)通过融合互联网知识库与实体操作数据,提升具身智能在跨场景的泛用性,例如从工业分拣拓展至家庭整理,无需大量重新训练,降低下游场景落地成本。
3. 产业链协同反哺多模态模型优化,形成正向循环
- 数据反馈下游场景的交互数据(如工业抓取误差、家庭服务用户反馈)通过中游云服务回传,用于多模态模型微调,例如 Covariant Brain 系统通过现实微调(Domain Adaptation)优化强化学习策略,提升抓取容错率。
- 硬件适配上游硬件(如低延迟传感器、高算力芯片)的升级,降低多模态模型的部署门槛,例如 Jetson AGX/Orin NX 芯片支持 TensorRT 推理,使 VLA 模型可在端侧实时运行,满足工业高频控制(20Hz)需求。
- 生态整合产业链上下游协同推动多模态模型标准化,例如中国信通院《具身智能发展报告(2024)》提出 VLA 模型技术规范,上游芯片、中游算法、下游应用企业共同参与,提升模型兼容性与场景适配效率。
七 具身智能产业链结构与案例及难点分析
一、具身智能产业链的上游、中游和下游重要环节及厂商
(一)上游:核心硬件与基础技术支撑
上游是具身智能产业的底层基石,聚焦核心硬件组件与基础技术研发,其性能直接决定中下游产品的智能化水平与稳定性,主要环节及代表厂商如下:
| 环节 | 核心作用 | 国际代表厂商 | 国内代表厂商 |
|---|---|---|---|
| 芯片(算力核心) | 提供算力支持,保障多模态数据处理、大模型推理及实时控制算法运行 | NVIDIA(Orin 芯片、H100 GPU)、Intel(Mobileye)、Tesla(Dojo 芯片) | 地平线(征程系列)、寒武纪(思元系列)、华为(昇腾系列)、紫光国微 |
| 传感器(感知入口) | 采集视觉、触觉、力觉等多维度环境与自身状态数据,实现智能感知 | 美国 ATI(力传感器)、瑞士 Kistler(力传感器)、德国 Schunk(触觉传感器)、日本索尼(视觉传感器) | 宇立仪器(力传感器,进入特斯拉供应链)、坤维科技(六维力传感器,市占率约 60%)、鑫精诚、海伯森、蓝点触控 |
| 执行器(动作驱动) | 包括电机、减速器、丝杠等,将决策指令转化为物理动作,决定运动精度与负载能力 | 日本安川电机(伺服电机)、日本哈默纳科(谐波减速器)、德国库卡(执行机构) | 绿的谐波(谐波减速器,国产替代主力)、秦川机床(RV 减速器)、汇川技术(伺服电机) |
| 控制器与通信模组 | 处理传感器数据并输出控制指令,保障设备间数据流转与协同 | 美国德州仪器(控制器)、德国西门子(工业通信) | 中控技术(工业控制器)、华为(5G 通信模组)、移远通信 |
| 能源管理系统 | 提供稳定供电,包括高性能电池、电源管理芯片,影响设备续航与安全性 | 日本松下(动力电池)、美国德州仪器(电源管理芯片) | 宁德时代(动力电池)、比亚迪(电池与电源管理)、中颖电子(电源管理芯片) |
(二)中游:技术整合与系统集成
中游是产业链的 “技术引擎”,通过软硬件协同开发,将上游硬件转化为可执行复杂任务的智能系统,核心环节包括技术研发与产品制造,代表厂商如下:
| 环节 | 核心作用 | 国际代表厂商 | 国内代表厂商 |
|---|---|---|---|
| AI 算法与大模型 | 作为 “智能中枢”,驱动感知融合、自主决策与任务规划,是具身智能的核心软件基础 | OpenAI(Figure 01 机器人算法合作)、NVIDIA(VIMA 多模态系统)、Google(RT-2 机器人模型) | 华为(盘古大模型)、商汤科技(日日新 V6 多模态大模型)、有鹿机器人(Master 2000 具身大模型)、若愚科技(九天大模型) |
| 操作系统与中间件 | 提供统一软件平台,支撑应用开发与跨组件协作,保障系统兼容性与稳定性 | 美国柳树车库(ROS 开源系统)、微软(Azure 机器人平台) | 华为(鸿蒙操作系统)、优必选(机器人专用 OS)、阿里(云操作系统) |
| 机器人本体制造 | 整合上游硬件与中游技术,生产人形、足式、轮式等形态的具身智能载体 | 特斯拉(Optimus 人形机器人)、Boston Dynamics(Atlas 人形 / 四足机器人)、Agility Robotics(Digit 人形机器人)、Figure(Figure 01) | 优必选(Walker 系列人形机器人)、宇树科技(H1 人形机器人、机器狗)、智元机器人(远征 A1/A2、灵犀 X2)、傅利叶智能(GR 系列康复人形机器人)、云深处科技(四足机器人) |
| 系统集成与解决方案 | 针对特定场景定制软硬件方案,实现具身智能产品的商业化落地 | ABB(工业机器人集成)、KUKA(智能制造解决方案)、Waymo(自动驾驶解决方案) | 节卡机器人(协作机器人集成)、普渡科技(服务机器人解决方案)、百度(Apollo 自动驾驶解决方案)、旷视科技(物流机器人系统) |
(三)下游:产品应用与市场落地
下游是产业链的 “价值闭环”,覆盖多元化产品与应用场景,直接触达终端客户,完成技术向商业价值的转化,主要环节及代表厂商如下:
| 环节 | 核心产品 / 场景 | 国际代表厂商 | 国内代表厂商 |
|---|---|---|---|
| 工业制造 | 工业机器人(焊接、装配、巡检)、AGV 仓储机器人 | 特斯拉(Optimus 工厂测试)、Boston Dynamics(工业巡检机器人)、ABB(工业机械臂) | 优必选(工业巡检机器人)、节卡机器人(协作机器人)、极智嘉(AGV 仓储机器人) |
| 医疗康复 | 康复机器人、手术辅助机器人、护理机器人 | 美国达芬奇(手术机器人)、瑞士 Hocoma(康复机器人) | 傅利叶智能(GR 系列康复机器人、ExoMotus M4 外骨骼)、天智航(手术机器人)、安翰科技(医疗检测机器人) |
| 家用与服务 | 家庭陪伴机器人、清洁机器人、餐饮配送机器人 | 日本软银(Pepper 服务机器人)、美国 iRobot(扫地机器人) | 科沃斯(扫地机器人)、普渡科技(餐饮机器人)、宇树科技(消费级机器狗 G1)、星动纪元(家庭陪伴机器人小星) |
| 交通出行 | 自动驾驶汽车、无人机、无人船 | Tesla(自动驾驶汽车)、Waymo(Robotaxi)、亚马逊(配送无人机) | 百度(Apollo Robotaxi)、小鹏(鹏行智能自动驾驶)、大疆(无人机)、比亚迪(自动驾驶汽车) |
| 特种与公共服务 | 应急救援机器人、安防巡检机器人、文旅导览机器人 | 挪威 1X Technologies(Neo Gamma 特种机器人)、美国 Covariant(物流机器人) | 达闼科技(云端服务机器人)、高仙机器人(安防巡检机器人)、星海图(轻型力控机械臂) |
二、具身智能在医疗康复、家用、工业制造领域的案例
(一)医疗康复领域
傅利叶智能 “具身智能康复港”傅利叶智能在 2025 世界人工智能大会及上海国际医学中心推出该方案,以 GR 系列人形机器人为核心,覆盖导诊咨询、上肢康复、认知康复、下肢康复、远程康复五大场景:
- 导诊咨询GR-1 人形机器人(身高 1.65 米,44 个自由度)搭载商汤 “日日新 V6” 大模型,具备语音交互、人脸识别与情感反馈能力,可完成就诊引导、训练排班、情绪疏导,未来还能读取治疗单提供流程指引;
- 上肢康复GR-2 人形机器人(12 自由度灵巧手、6 个阵列式触觉传感器)引导患者完成伸展够及训练,通过触觉反馈调整训练进度,锻炼上肢力量与手眼协调;
- 下肢康复外骨骼机器人 ExoMotus M4 实时监测步态轨迹与关节角度,生成量化训练报告,帮助下肢障碍患者重建自然步态;
- 认知康复GR-2 通过递物指令引导患者完成颜色识别、物品分类,操作有误时语音纠正认知偏差。
天智航骨科手术机器人作为国内获批的骨科手术机器人,可辅助医生完成脊柱手术的精准定位与螺钉植入,通过多模态影像融合(CT + 术中导航)与力控反馈,将手术精度控制在毫米级,降低术中出血与术后并发症风险,已在全国超 300 家医院应用。
(二)家用领域
宇树科技消费级机器狗 G12023 年推出的 9.9 万元消费级四足机器人,重量仅 15kg,支持语音控制与手机 APP 操作,可完成跟随、避障、物品抓取等任务,同时具备陪伴交互功能(如模仿宠物动作、语音对话),适配家庭日常场景,较国际竞品降价超 70%,推动家用具身智能产品普及。
科沃斯 X3 Pro 扫地机器人集成多模态感知(视觉 + 激光雷达 + 触觉传感器)与具身决策算法,可自主规划清扫路径,识别家具类型(如沙发、地毯)并调整清扫模式,同时支持语音指令(如 “清扫客厅”),通过实时环境反馈优化动作,解决传统扫地机器人 “漏扫、卡困” 问题。
星动纪元 STAR1 家庭陪伴机器人轻量化设计(重量 45kg),搭载多模态交互系统,可完成家务辅助(如整理衣物、递物)、儿童教育(绘本阅读、英语对话)、老人陪伴(健康监测、情感聊天),通过柔肤材质与拟人化表情降低机器冰冷感,适配家庭复杂环境。
(三)工业制造领域
特斯拉 Optimus 工厂测试应用特斯拉 Optimus 人形机器人(搭载 FSD 自动驾驶芯片与视觉神经网络)已进入汽车工厂开展测试,负责零部件搬运、装配辅助等任务,通过端到端控制技术直接映射感知数据到动作,二代机型步行速度提升 30%、减重 10kg,计划 2025 年底前首阶段量产 1 万台,2026 年月产达万台,目标替代工厂重复劳动岗位。
优必选 Walker X 工业巡检机器人双足人形机器人(身高 1.45 米,负载 10kg),集成激光雷达、高清摄像头与气体传感器,可在半导体工厂、能源电站等场景完成设备巡检、数据采集(如温度、压力读数)、异常报警,通过强化学习算法适应复杂工业环境(如狭窄通道、上下楼梯),已在国内多家半导体工厂落地。
极智嘉 AGV 仓储机器人集群基于分布式协同技术,上百台 AGV 机器人在电商仓储中心实现动态任务分配与冲突消解,通过多模态感知(视觉 + RFID)定位货物,配合路径规划算法将分拣效率提升 300%,支撑 “单日百万单” 的物流峰值需求,已服务京东、菜鸟等企业。
三、具身智能产业与应用难点
(一)产业层面难点
核心技术与硬件依赖进口,国产替代任重道远上游高端硬件如高精度谐波减速器(日本哈默纳科市占率超 70%)、六维力传感器(美国 ATI、瑞士 Kistler 主导)、高端 AI 芯片(NVIDIA H100/A100 垄断)仍依赖进口,国内厂商虽在部分领域(如绿的谐波减速器、坤维科技力传感器)实现突破,但在精度、可靠性、量产能力上与国际龙头存在差距,且核心算法(如端到端控制、多模态融合)的底层架构仍需借鉴国外技术,自主可控能力不足。
成本居高不下,商业化规模化受阻单台人形机器人成本高昂,如特斯拉 Optimus 研发阶段成本超 20 万美元,核心原因包括:上游高端硬件(如 FSD 芯片、谐波减速器)单价高;中游大模型训练与系统集成投入大(GPT-4 训练成本超 1 亿美元);下游场景定制化需求强,难以形成规模效应。即使消费级产品如宇树 G1(9.9 万元),仍高于普通家庭承受能力,限制市场普及。
标准体系缺失,产业链协同不足具身智能涵盖机械、电子、AI、通信等多领域,目前缺乏统一的技术标准(如传感器数据接口、大模型训练规范、安全认证体系),导致上下游企业产品兼容性差(如 A 厂商传感器无法适配 B 厂商控制器),中游系统集成需大量定制化开发,增加成本与周期。同时,跨企业、跨领域的技术协作少,如芯片厂商与机器人厂商缺乏联合研发,难以针对具身智能场景优化硬件性能。
复合型人才稀缺,研发周期长具身智能需 “AI 算法 + 机械工程 + 自动化 + 认知科学” 的复合型人才,而国内高校相关专业设置滞后,人才缺口超 10 万,尤其缺乏既懂大模型又懂运动控制的核心研发人员。此外,技术研发周期长,从实验室原型到商业化产品需 5-10 年(如波士顿动力 Atlas 研发超 20 年),且试错成本高,中小企业难以承受长期投入。
(二)应用层面难点
医疗康复领域:安全与个性化平衡难,临床验证周期长
- 安全风险康复机器人直接接触患者(如偏瘫病人、老人),需极高的动作精度与力控能力,当前触觉传感器(精度 0.1N)仍不及人类皮肤(0.01N),易因力度控制不当造成二次伤害;
- 个性化适配每位患者病情(如中风程度、脊髓损伤位置)不同,需机器人根据实时数据调整方案,但多模态数据融合算法(如视觉 + 力觉 + 生理信号)尚未成熟,难以实现 “千人千策”;
- 临床验证医疗产品需通过严格的临床试验(如 3 期验证),傅利叶 GR 系列机器人从研发到进入医院耗时超 5 年,且医保报销政策未覆盖,患者付费意愿低。
家用领域:环境适应性差,交互体验生硬
- 复杂环境应对难家庭环境存在随机障碍物(如宠物、儿童玩具)、动态场景(如家具移动),机器人需实时更新环境模型,但当前 SLAM(同步定位与地图构建)技术在光照变化、镜面反射场景下易失效,导致避障、导航出错;
- 交互理解不足自然语言指令存在模糊性(如 “整理一下桌子” 未明确物品摆放位置),多模态大模型虽能理解字面意思,但难以结合家庭场景常识(如 “常用物品放顺手位置”)生成合理动作,交互体验远不及人类;
- 隐私与安全隐患家用机器人需采集视觉、语音数据,存在数据泄露风险,且缺乏紧急制动机制(如儿童突然靠近时无法快速停止),安全防护体系待完善。
工业制造领域:动态场景泛化差,与现有产线兼容难
- 任务泛化能力弱:工业场景任务多样(如焊接不同车型零件、分拣不同尺寸包裹),当前机器人多依赖单一场景训练数据,跨任务迁移时需重新编程,如特斯拉 Optimus 在汽车工厂仅能完成固定搬运任务,无法快速适配新车型装配;
- 产线兼容问题:传统工厂产线(如 20 年以上的老产线)缺乏数字化接口,具身智能机器人难以接入现有控制系统,需改造产线(如加装传感器、升级 PLC),成本高且影响生产进度;
- 实时性与可靠性要求高:工业生产需机器人 24 小时连续运行,且动作响应延迟需低于 100ms,当前大模型推理(如 VLA 模型生成动作指令)延迟约 500ms,难以满足高频次、高节奏的生产需求,且硬件故障率(如电机过热、传感器失效)需控制在 0.1% 以下,国内产品仍需提升稳定性。
八. 关键问题及答案Q&A
问题 1:具身智能与传统 AI 在核心特性上有何本质区别?这一区别对两者的应用场景选择有何影响?
答案:具身智能与传统 AI 的本质区别体现在环境、输入、输出、目标、学习五个核心维度,具体如下:
| 维度 | 传统 AI (如 ChatGPT, 图像识别) | 具身 AI (如家庭机器人,自动驾驶) |
|---|---|---|
| 环境 | 静态、封闭的数字世界 | 动态、开放的物理世界 |
| 输入 | 单一或特定模态 (文本、图片) | 多模态、实时传感器数据流 |
| 输出 | 数字信号 (文本、标签、概率) | 物理动作 (移动、抓取、说话) |
| 目标 | 模式识别、内容生成 | 在环境中完成具体物理任务 |
| 学习 | 基于大规模静态数据集 | 通过与环境的实时交互和试错 |
对应用场景选择的影响显著:传统 AI 因依赖静态数字环境和单一模态数据,更适合虚拟空间的信息处理任务,如文本生成(ChatGPT)、图像识别(图片分类标注)、语音转文字等;而具身智能因能在动态物理环境中通过多模态感知与物理动作交互,更适合需与现实世界互动的任务,如家庭服务(扫地机器人)、工业生产(焊接机器人)、自动驾驶(智能汽车)、医疗护理(手术机器人)等需执行具体物理操作的场景。
问题 2:当前具身智能产业链上下游的核心构成是什么?国内外分别有哪些代表性企业,其产品布局有何差异?
答案:
产业链核心构成:
- 上游原材料和零部件供应,核心包括芯片(提供计算能力,如 NVIDIA Orin、地平线征程系列)、传感器(力传感器、IMU 惯性传感器等)、电机(伺服电机、空心杯电机)、减速器(精密、RV、谐波减速器)、丝杠、驱动器、电池、通信模组等。
- 中游制造和集成,含本体制造(工业、服务、特种机器人本体生产)、系统集成(提供行业解决方案、数据解决方案)。
- 下游应用场景,覆盖工业制造、交通物流、医疗保健、家政服务、教育培训、科学研究、军事国防等领域。
国内外代表性企业及产品布局差异:
- 代表企业:波士顿动力、特斯拉、本田、Agility Robotics、Figure 等。
- 产品布局特点:技术积累深厚,在人形机器人运动性能(如波士顿动力 Atlas 的高灵活性)、大模型与机器人融合(如特斯拉 Optimus 搭载 FSD 芯片)上领先,且更注重全球化市场布局,产品适配多国家不同行业场景,同时在高端核心零部件(如高精度减速器、芯片)上有较强技术垄断性。
- 代表企业:优必选、智元机器人、宇树科技、傅利叶、达闼机器人等。
- 产品布局特点:聚焦人形机器人(如优必选 Walker 系列、智元机器人远征系列)、具身智能大模型(如有鹿机器人 Master 2000)及特定场景应用(如艾欧智能的动作捕捉套装),注重本土化场景适配,如工业制造、家庭服务等领域的落地,同时在核心零部件国产化替代(如传感器、电机)上逐步发力。
答:
需突破的关键瓶颈:
- 多模态融合技术:当前具身智能对视觉、语言、触觉等多模态数据的整合能力不足,需突破多源数据实时处理与协同决策算法,确保智能体对复杂环境的准确理解。
- 硬件性能提升:触觉传感器需实现高精度、低能耗、轻质化突破,机器人关节功率密度需接近人类肌肉,以提升运动灵活性和能效,满足家庭、医疗等复杂场景需求。
- 跨领域迁移能力:现有智能体多适用于单一场景,需开发能跨不同任务和环境迁移的技术,实现 “一智能体多场景适配”。
- 数据瓶颈缺乏海量、高质量且融合物理交互反馈的多模态数据,真实数据采集成本高,仿真数据存在 “仿真与现实鸿沟”,需建立高效的数据采集与处理体系,缩小仿真与现实差异。
- 成本瓶颈硬件(如高精度传感器、电机)和算法(大模型训练与部署)成本过高,需通过技术优化(如低成本传感器研发、模型压缩)降低制造成本与使用成本,提升产品性价比。
- 人才瓶颈缺乏既懂人工智能、大模型,又懂机械设计与自动化的复合型人才,需完善人才培养体系,填补行业人才缺口。
瓶颈突破对市场规模增长的推动作用:
- 多模态融合与跨领域迁移技术突破后,具身智能可适配工业、医疗、家政等更多领域,扩大应用场景覆盖范围,吸引更多行业客户投入,推动市场需求增长。
- 硬件性能提升与成本降低,使具身智能产品(如人形机器人)价格更亲民,从工业级应用向消费级应用(如家庭服务机器人)渗透,打开大众消费市场,显著扩大市场规模(如家庭机器人市场容量预计达千亿级)。
- 数据瓶颈突破后,具身智能训练效率提升,产品迭代速度加快,性能更稳定,增强客户信任度,促进规模化应用,进而推动市场规模快速增长,如全球人形机器人市场规模预计 2035 年达 378 亿美元,瓶颈突破后有望提前实现或超预期增长。
- 复合型人才缺口填补,加速技术研发与产品落地进程,缩短产品从实验室到市场的周期,抢占市场先机,提升行业整体发展速度,进一步拉动市场规模扩张。





发表评论 取消回复