【本翼资本】人形机器人——智能革命的引爆点（二）—— 技术趋势及投资机会

本翼资本本翼资本CapitalWings

摘要：人形机器人技术创新的关键在于感知-决策系统。视觉方面，TOF+双目视觉成为主要技术路径之一；触觉方面，仿人力控、电子皮肤是核心创新点；决策方面，基于多模态LLM的RobotGPT将促使机器人实现自然智能。机械系统技术相对成熟，关注降本增效。

“

核心观点：

人形机器人技术创新的关键在于感知-决策系统。

（1）感知系统：视觉传感器方案多元，TOF+双目视觉解决方案有望成为主要技术路径之一；高精度触觉传感器方兴未艾，仿人化力控、柔性电子皮肤发展空间广阔。

（2）决策系统：基于多模态LLM的RobotGPT结合感知系统提供的海量数据，将促使人形机器人在高度语言智能的基础上实现自然智能。

（3）机械系统：减速器、伺服系统、控制器三大核心机械零部件技术精度不断提高，原材料降本空间大。

（4）支持系统：关注储能电池、云端控制技术的最新进展。

”

人形机器人未来综合形态预测

结合我们在系列报告第一部分中的分析，综合来看，人形机器人发展趋势为：①感知：人形机器人将逐步具备获取人类五感的条件；②决策：人形机器人将获得全面发展的大脑（机器智能）；③执行：人形机器人将获得更加精细化、定制化的四肢。通过中长期视角下对人形机器人各系统交互程度的展望，得到人形机器人未来综合形态的发展概念图。

图一：人形机器人未来形态的综合预测

（资料来源：本翼资本整理）

感知-决策系统融合创新，驱动人形机器人技术变革

2.1 感知系统：硬件创新的关键

传感器发展趋势：智能化、可移动化、微型化、集成化和多样化。早期的机械式传感器（19世纪末 - 20世纪初）如压力计、温度计，为传感技术奠定基础。20世纪中叶，电子化与半导体时代带来了光敏电阻、压电传感器等，实现更精准感知。随后，微机电系统（MEMS）时代出现微型化传感器，如加速度计。21世纪的纳米技术与智能传感阶段兴起，纳米传感器、智能网络传感器等应运而生，实现高精度、智能化。传感器发展趋势可概括为智能化、可移动化、微型化、集成化和多样化。智能化方向包括传感功能集成、数据处理、双向通信等，以及智能传感器与人工智能结合；可移动化涉及无线传感网技术应用，如智能家居、农业、林业监测等；微型化领域以MEMS传感器为主，提高精度、实现集成化和智慧化等；集成化指多功能一体化传感器的发展；多样化方向突破在新材料技术下出现各种新型传感器。

图二：19世纪-21世纪传感器技术的发展历程

（资料来源：本翼资本整理）

传感器发展的核心技术瓶颈可总结如下：（1）硬件材料的功能性迭代（金属器械-半导体-纳米材料）；（2）软件技术和算法开发的加持。相比于注重现有设备的集成化、微型化以及具有可移动条件的改进式发展，新材料，特别是超导、纳米、生物材料研发的进展更有希望助推传感器技术实现颠覆性突破。以下部分将智能机器人领域所使用的核心传感器分为：视觉传感器、力传感器两大类进行行业现状和技术发展趋势的讨论。

图三：传感器技术的未来发展五大趋势

（资料来源：《全球传感器未来发展趋势及4大重要领域》、本翼资本整理）

2.1.1 视觉传感器：多方案融合创新

区别于计算机视觉，机器人视觉的核心任务路径是实现图像-行动的转化：计算机视觉是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量，用计算机技术将图像处理成为更适合人眼观察或传送给仪器检测的图像。过渡到机器视觉层面，其保留了底层技术的关键设计，但也面临新的挑战。对机器人而言，感知只是一个更复杂、具身、主动、目标驱动的系统的一部分。因此，机器人视觉必须考虑到它的输出（比如物体检测、分割、深度估计、3D重建等），机器人视觉获取的信息所指引的决策结果最终需要落实到现实世界的行动上。简而言之，计算机视觉获取图像并将其转化为信息，而机器人视觉则将图像转化为行动。

图四：计算机视觉与机器视觉的关系图

（资料来源：维基百科、《The Limits and Potentials of Deep Learning for Robotics》、本翼资本整理）

机器人视觉的三大挑战——学习、具身、理解：机器人是一个主动智能体，它能在现实世界中行动，并与之互动。机器人传感器是支持机器人做出具身化决策的重要技术支持。发布于2016年的《The Limits and Potentials of Deep Learning for Robotics》一文认为：机器人视觉领域的研究重点在于学习、具身和理解这三个维度。根据这些挑战不断增加的复杂性及其依赖性对这些挑战进行了三个理解维度的层级划分如下：

图五：机器人视觉技术面临的三大挑战

（资料来源：《The Limits and Potentials of Deep Learning for Robotics》、本翼资本整理）

视觉传感方案趋势预测：

（1）2D技术向3D的技术进展趋势：相较2D技术，3D技术除了量化图像主体发出的光线外还能提供所录制场景或物体的深度值，故在不考虑成本控制因素的前提下，其已基本形成对2D技术的替代。

（2）三种主流3D视觉传感器技术的融合趋势：目前基于3D技术的视觉传感器主要技术路径有三条：①飞行时间（TOF）；②立体视觉（StereoCamera）；③结构光（Structured-light），三种技术的性能比较如下表。其中TOF和结构光技术在机器人设备的应用领域前景明确，以主动式的测量方法实现了较高精度、较远范围的视觉功能实现。进一步考虑其综合性价比，TOF技术是最优选择。

（3）机器人视觉传感方案再现人眼工作原理的技术实现趋势：考虑市场对人形机器人这一概念的期待与想象力，再现人眼的视觉实现工作原理，即②立体视觉（Stereo Camera）技术的被动式测量方式，依然是未来的主要技术方向。因此，人形机器人综合视觉解决方案的未来发展趋势可能是，以双目视觉为主要形式，以TOF、结构光技术为辅助弥补其低夜视能力和高算法功耗的主要缺陷。

图六：三种主流视觉传感技术在关键标准下的对比

（资料来源：《3D深度相机调研》、本翼资本整理）

图七：不同技术路径的两代Kinect 3D视觉传感器产品的参数比较

（资料来源：公司官网产品手册、本翼资本整理）

综合视觉传感方案的几种可能实现路径：基于以上三点趋势预测，综合市面上各厂商3D视觉传感器产品配置的调研，我们认为人形机器人综合视觉传感方案有如下三类配置：①TOF+多摄像头；②结构光+定制化算法设计；③双目视觉+TOF。

图八：三种可实现路径应用厂商列举

（资料来源：《3D深度相机调研》、本翼资本整理）

①TOF+多摄像头

以Microsoft的Kinect v2深度视觉传感器产品为例，其基于飞行时间TOF测量原理，闪光红外光照亮场景，光线被障碍物反射后，每个像素的飞行时间由红外相机记录，内部，波调制和相位检测用于估计到障碍物的距离。配合另一侧的颜色传感器，最终能够形成一个有几何结构和颜色贴图的完整高质量的三维模型集合，从而使视觉信号的传输更加真实准确。

图九：Microsoft的Kinect v2深度视觉传感器示意图

（资料来源：《3D深度相机调研》、本翼资本整理）

②结构光+定制化算法设计

以Pickit公司用于机器人引导的3D视觉系统Pickit M-HD为例，其特点在于采用定制的机器人教学法。在操作方面，M-HD解决方案的机器人教学方法与Pickit的低分辨率产品完全一致。这一简单过程包括三个步骤：（1）告知3D相机要拾取的零件，以及进行拾取的工具，让Pickit将学习这两方面的内容；（2）告知Pickit在哪里可以找到料箱，并教导零件的最佳抓取位置；（3）Pickit告诉机器人下一个最容易拾取的零件在哪里，同时在操作中预测并防止与障碍物和其他零件的碰撞。

③双目视觉+TOF

基于双目立体视觉的深度相机类似人类的双眼，和基于TOF、结构光原理的深度相机不同，它不对外主动投射光源，完全依靠拍摄的两张图片（彩色RGB或者灰度图）来计算深度，故也被称为“被动式”双目深度相机。双目视觉法存在两个明显的技术缺陷：1）对环境光照非常敏感；2）不适用于单调缺乏纹理的场景。通过对比这一方案下的一种专利技术与单一双目视觉技术的流程（下图），双目视觉方法与TOF方案的结合相当于引入了帮助确定立体区域视差的约束条件，从而提高对单调场景的辨识度，并降低环境光照的干扰。

图十：双目视觉+TOF 视觉传感方案解释

（资料来源：《一种结合tof技术和双目视觉的深度信息获取装置及其方法》专利说明书、本翼资本整理）

视觉传感方案对于机器人视觉功能实现的预测：在以上三种综合视觉传感方案实现路径下，我们预计在“学习”、“具身”、“理解”三大维度上，人形机器人的视觉功能实现程度将不断被推高。在“学习挑战”方面，人形机器人将能够通过深度拍照+视觉效应+方向感实现增量/类增量学习；在“具身挑战”方面，其将能够达到理想的主动视觉实现；在“理解挑战”方面的进展则主要取决于感知-决策系统软硬件一体化发展水平的迭代，在这一方向上的终极目标是：帮助人形机器人实现“联合理解”(Joint Reasoning)，即以紧密耦合的方式共同地对语义和几何进行推理，从而使语义和几何可以相互共同联系。

图十一：依托三条技术路径的人形机器人视觉功能实现预测

（资料来源：EE Times China、本翼资本整理）

2.1.2 触觉传感器：多维力传感器与电子皮肤

传感器结构方面，多维力传感器对人形机器人的动作实现更理想：按照力传感器感力原件的工作原理不同，可以将其分为①应变片式；②光学式；③压电/电容式；④微电子机械系统MEMS系列传感器（目前技术水平、市场占有率和表现性能最高的方案）。总体来说，力传感器的基本原理是将力的量值转换为相关的电信号，从而帮助机器人达成对受力的量化感知的目的。举例压电/电容式力传感器，其运作流程可以表述为：“受力—应变片电阻—电压”的两次转换。结构方面，力传感器由一维到多维的发展代表其对现实世界中更复杂受力情况的反映能力的提高。在智能机器人领域，目前用于机器人关节的主流技术是简化版的六维力传感器，即扭矩传感器。

图十二：一维、多维力传感器的不同适用场景

（资料来源：ATI、本翼资本整理）

图十三：机器人扭矩传感器示意图

（资料来源：宇立官网、本翼资本整理）

力传感器技术发展的三大趋势：①多种感力原件（应变片式、光学式、压电/电容式、MEMS）的集成化运用；②应对更多力的种类的感力原件开发；③感力材料的创新性运用，是力传感器技术发展的三大趋势。例如，澳大利亚力传感器初创公司Contactile开发的PapilArray传感器初步实现了②和③的突破。具体来说：其创新性地使用了适应性更好的硅胶材料模仿人类指垫的生物性结构，利用光学式传感的专利技术完成传感的过程，在设计理念上，着力于复制人类手部的灵活性，“赋予机器人以人类的触觉”，以实现智能、灵巧的抓握，也因此，在对外力的分析上，设置了分别能够检测物体形变、受力、扭矩、初始滑动和摩擦力的3D偏转、3D力和3D振动传感器，在无需编写特定程序的情况下就可以实现对外界环境的灵活应变。另外，在③感力材料的创新性运用这一点上，同样拥有前沿技术的是University of Bristol研究人员研发的一种具有可变刚度的软性装置(sponge-jamming device)，以海绵为直接接触材料，模仿了人类皮肤软组织的构造，使机器人的抓握动作更加轻缓。

图十四：PapilArray传感器的技术要点解释

（资料来源：Contactile官网、本翼资本整理）

图十五：一种具有可变刚度的软性装置构造示意图

（资料来源：Robohub、本翼资本整理）

柔性电子皮肤的技术目标实现：柔性电子皮肤指附着于机器人表面的柔性纳米功能材料，敏感材料、结构设计、多模态感知是电子皮肤技术进步的方向。目前柔性电子皮肤的具体技术路径尚不明晰，原创程度和创新性强，主要由初创公司占据市场。总体来说，其技术目标实现的三阶段是：附着在设备表面充当外衣-发展出灵敏的传感系统-进一步实现自我修复功能。根据GII预测，到2030年全球电子皮肤市场价值将达到268亿美元，在2023-2030年预测期间的复合年增长率为19.73%。电子皮肤目前的可实现场景主要集中在以医疗保健监测为主题的可穿戴技术设备。

图十六：柔性电子皮肤的技术目标实现三阶段

（资料来源：本翼资本整理）

图十七：人形机器人电子皮肤的核心技术瓶颈

（资料来源：本翼资本整理）

图十八：一种能够提高灵敏度、增大量程的自填充微结构电子皮肤设计

（资料来源：《从数字新基建到机器人电子皮肤》（郭士杰，2023）、本翼资本整理）

2.2 决策系统：机器智能的灵魂

ChatGPT向RobotGPT过渡的设想路径：ChatGPT为实现机器智能提供了可行方案，用于机器人GPT的框架（或称RobotGPT）的一种可能设计如下：其中，奖励机制模型、人工判断下的反馈和增强型学习技术分布在流程的各个模块，能够实现基础程序下机器人的自主学习。Optimus机器智能的亮点在于采用FSD computer作为计算核心，包含SoC、存储、Wifi等模块，并通过FSD的规划算法控制机器人移动、操作。目前HW3.0芯片单颗算力约72TOPS，最新HW4.0将进一步提升，尽管较人脑在理论算力上存在差距，但在DOJO训练中心的加持下，其综合计算能力远超人脑。

图十九：RobotGPT框架设想

（资料来源：《RobotGPT: From ChatGPT to Robot Intelligence》、本翼资本整理）

人形机器人将获得全面发展的大脑（机器智能）：预计未来人形机器人将不仅能够依靠自然语言处理能力、机器学习、监督学习及ChatGPT不断迭代的技术能力实现最直接路径的高程度语言智能，还将能够依靠其实现逻辑数学智能、空间智能、身体动觉智能、人际智能甚至是自然智能。在其分别对应的函数中可见，知识库K的容量作为定义域，决定了以各传感器获取的数据结果为自变量的函数的合成结果。其中，①各传感器获取的数据的质量、即时性、精确度取决于机器人感知系统的发展程度；②知识库K的容量取决于人形机器人进行机器学习的能力的发展程度。

图二十：人形机器人传感、决策系统的框架设想

（资料来源：《RobotGPT: From ChatGPT to Robot Intelligence》、本翼资本整理）

机械-支持系统锦上添花，提升人形机器人产品力

3.1 机械系统：技术相对成熟，关注降本增效

减速器、伺服电机、控制器为机器人的三大核心机械零部件：传统工业机器人成本结构中，减速器占比最高，成本约占机器人整体的35%-40%；随着机器人机械结构系统趋向复杂，需求量将进一步增大（一个自由度对应一个减速器）。以执行关节为单位分类，减速器配套的伺服电机约占总成本的20%，然后是自研控制器（占总成本的15%），三大零部件合计占比约70%-75%，为机器人成本控制和效率提升的核心影响因素。

3.1.1 伺服系统：集成化趋势显著，永磁材料为降本关键

伺服系统工作原理：伺服系统通常由伺服驱动器、伺服电机和编码器组成，以闭环控制的模式将电机的输出与实际需求进行匹配，实现精确的运动控制。伺服系统的主流构造模式为“驱动-电机”一体化伺服系统，但由于伺服电机在产业下游工业自动化领域的用途广泛，伺服电机的产品和服务提供多为“一体化定制方案”的形式，即融合控制、驱动、电机为一体，生成集成式伺服系统，以节省总体占用空间。选取伺服系统龙头公司性能（电机最高转速）处于相同水平的产品：ABB的【E530 伺服驱动器+DSM 伺服电机】组合，YASKAWA的【Σ-X伺服单元+旋转型伺服电机】组合以及SIEMENS的【SINAMICS S120】产品，其集成化趋势显著，根据伺服电机的抱闸、编码器和油封等使用需求提供多种驱动器-电机-动力电缆-编码器电缆的组合配置，兼容性高，且有效减省了传统伺服器所用的输入电缆使用成本。

图二十一：2010-2020年全球伺服电机行业图二十二：2011-2020年中国伺服电机市

需求量及增速场规模及增速

（资料来源：华经产业研究院，本翼资本整理）（资料来源：华经产业研究院，本翼资本整理）

图二十三：伺服系统工作流程图

（资料来源：中国工控网，本翼资本整理）

图二十四：一种高度集成的多轴微型伺服系统的结构变化

（资料来源：中国国际电子生产设备暨微电子工业展，本翼资本整理）

核心稀土永磁材料未来发展面临技术迭代/替代的路径分化：（1）目前稀土永磁技术完成三次迭代，第四代稀土永磁的开发还在实验室阶段，成果尚不明确，距离产业化仍有一定距离。若新技术开发能够实现材料合成阶段的降本，则有望产生新的投资机会。（2）特斯拉近日宣布，其在下一代永磁电机制造方案中将实现去稀土化，以应对客观自然资源开采以及国际政策环境影响下稀土资源的高成本问题，其零稀土电机制造方案仍未公布。

图二十五：稀土永磁材料发展历程

（资料来源：公开资料、本翼资本整理）

3.1.2 减速器：细分赛道存在较大需求增长空间

减速器需求变化的宏观描述：智能机器人的一个关节点对应一个减速器，随着智能机器人形态的人形化发展，特别是灵巧手工艺的进步，单个机器人所使用的减速器数量增长预测如下：以特斯拉Optimus为例，单个人形机器人可能用到的减速器在旋转、线性关节器部分各有14个，灵巧手部分使用12个行星减速器。进一步来看，体量更小的谐波减速器适用于多关机机器人的小臂、腕部、手臂等部位，RV减速器主要适用于工业机器人机身的腰、上臂、下臂等部位。

图二十六：特斯拉Optimus关节执行器设计方案

（资料来源：Tesla AI Day2022 发布会、本翼资本整理）

谐波减速器需求空间测算：假设（1）工业机器人中各类型出货量比重保持不变；（2）工业、人形机器人每台谐波减速器、RV减速器用量基本保持不变，人形机器人以特斯拉Optimus最新发布数据（14个/台）为参考；（3）2030年人形机器人产业初具规模，全球产量达1000万台，CAGR=63.5%且保持不变，即未实现重大技术突破的保守估计（据高盛预测，若2035年后人形机器人实现重大技术突破，CAGR可达94%），工业机器人总体出货量年复合增长率27%。基于以上核心假设，我们预计2023年全球用于机器人制造的谐波减速器需求量为1698万台，2035年达到30,760万台，2050年达到145,405万台，CAGR近24%，谐波减速器市场增长空间广阔。

图二十七：不同种类机器人每台平均谐波减速器用量

（资料来源：各公司官网、中商情报网、本翼资本整理）

图二十八：不变年复合增长率下的2023-2050年全球机器人谐波减速器需求量预测

（资料来源：高盛、中商情报网、中研网、本翼资本整理）

3.1.3 控制器：精度、速度、稳定性仍需提升

控制器生产模式的两种技术路径梳理：目前机器人控制器的产品运营方式主要有（1）自产自用；（2）单独生产、售卖。机器人主体的龙头企业多采用自产自用的模式，高筑软件算法技术壁垒，压缩单一生产、售卖路径的生存空间。目前国内机器人控制器高端市场仍由国外厂商主导，根据2022年国内控制器市占率情况，安川、ABB、库卡等海外机器人龙头公司的国内控制器市占率排名靠前，且控制器行业市占率CR3达42%，高端市场产业集中度高。

图二十九：运动控制系统的完整控制流程示意图

（资料来源：雷赛智能招股说明书、本翼资本整理）

3.2 储能电池与云端控制系统

3.2.1 关注储能电池技术进展

关注储能电池技术的发展：储能电池技术本身经历了多次的迭代，在机器人领域，以机器人技术的发展程度为主线进行梳理，玩具类机器人对电量的要求单一，主要使用低成本、重量轻的镍氢电池；体量庞大的非移动机器人（大多数协作机器人）使用低成本但体积、质量庞大的铅酸蓄电池；锂离子电池为要求良好性能表现和较长使用寿命的智能服务型机器人的长时间工作提供了可能性。展望未来，随着固态电池技术的发展，锂离子电池能量密度有望突破500 Wh/kg，将大幅提升续航能力，助力人形机器人推广渗透。

图三十：智能机器人的电池方案选择

（资料来源：公开资料、本翼资本整理）

关注机器人结构、充电形式的颠覆性改变：以脊椎动物依靠脂肪组织获得能量、支撑、保护的特性为灵感，一种新型的可充电锌电池已然问世，该电池可以集成在机器人结构中，在充当外壳的同时就像生物脂肪一样储存能量，为机器人提供电力。

图三十一：一种基于电化学和机械技术的毫米级厚度的柔性“电池”皮肤解决方案

（资料来源：《Biomorphic structural batteries for robotics》、本翼资本整理）

3.2.2 关注云端控制系统新趋势

云端控制系统为机器人集群整体解决方案提供保障：近年来移动机器人（特别指工业、协作领域的机器人）出货量增长态势明显。ABI Research的调查显示，移动机器人出货量预计将从 2023 年的 25.1万台攀升至2028年的160万台，同期收入预计将从 126 亿美元跃升至 645 亿美元。为满足寻求运营效率的行业不断增长的需求，以NVIDIA为首的市场参与者正在开发为支持用于协作领域的机器人集群定制化解决方案的云端控制系统。日前，NVIDIA基于其NVIDIA Nova Orin 参考架构推出了新平台Isaac AMR以支持下一代自主移动机器人 (AMR)车队，其包括一系列从边缘到云的软件服务、计算以及一组参考传感器和机器人硬件，可用于模拟、验证、部署、优化和管理自主移动机器人车队，这一技术平台体现了以传感器为代表的硬件与云端软件深度融合的特点，将有望运用于人形机器人。由此，云端控制系统在中长期视角下也反映了人形机器人软硬件、云管端一体化的趋势前沿。

、

图三十二：NVIDIA开发的支持下一代自主移动机器人车队的Isaac AMR新平台概念图

（资料来源：Robohub、本翼资本整理）

安全控制系统提供了机器人集群整体运作的保障：随着机器人及其集群商用化趋势日益凸显，其在协作行为中的秩序、安全性、稳定性成为研究机构的关注点。日前，UBL研究员提出了一个“以比特币等加密货币中的区块链技术确保机器人群协调能力”的新项目，其宗旨在于运用区块链技术使机器人集群能够在无需人工干预的情况下消灭有害（出现系统紊乱的）机器人，从而实现自主且安全的机器人集群部署。其技术思路在于迁移运用于加密货币领域的“智能合约”(Smart Contract)代码体系，阻隔外部操纵或阻止这些代码的可能性，机器人指令会自动执行，而无需信任第三方。

人形机器人产业链投资机会梳理

根据人形机器人生态全产业链的软硬件技术发展情况，分机械零部件、AI集成产品、传感器、仿生结构、支持系统、终端产品七部分整理了主要的市场参与者。再考虑产业链不同环节的企业的性质，构建一个标签体系定义其在产业生态中的中观定位，其中，①前沿初创公司；②行业领导者；③价值链整合者三个标签内的市场参与者对行业生态具有重大影响力。