今年具身智能非常火热。从宇树的人形机器人登上春晚之后,掀起了新一轮的投资热潮,一些企业拿到了多轮投资。具身智能也成为AI 可能落地的一个场景。
具身智能的核心之一是大小脑技术,而下一代的具身神经智能有望实现真正的全脑,使机器人具备人类大脑一样的计算能力。
那么,具身智能当前的发展态势如何?为何下一步需要具身神经智能?2025 年 9 月底,“ IC WORLD 2025”在北京经济技术开发区举行,会上,北京大学博雅特聘教授、集成电路学院党委书记王源做了主题报告——具身神经智能的发展与趋势,分享了他的观点。王教授长期从事类脑计算、存内计算等新范式计算架构和芯片的设计研究,研制了多款新型AI 芯片。
1 机器人的历史及启示
具身智能的一种载体是人形机器人。对于人形机器人,我们的祖先赋予了无数想象。例如先秦时期,《列子. 汤问》记录了一个故事:验尸献计。巧匠偃师给周穆王送了一个人偶,这个人偶非常好玩,周穆王很惊奇。为什么要讲这个话题?其中有几句话现在还很应景,这个人偶有五脏六腑,如果去其心,它就不能言;如果去其肝,它就看不见;如果取其肾,就不能行走。所以古代的机器人/ 人偶与现在的具身智能是有所区别的:现在的具身智能或者机器人,头是头,眼是眼——是完全分离的;而古代的是一个从里到外、从上到下完整的系统,这也给我们一点启示。
近50年来人形机器人发展很快。1972年日本早稻田大学研发了全球第一个全尺寸的人形机器人。2000年,日本本田公司研制了在运动能力上有重大进步的机器人,可以做双足奔跑、上下楼梯等。2008年法国阿尔德巴兰机器人公司研发了NAO机器人,是第一款商业落地的机器人,是一个小型的教学陪伴机器人,值得一提的是,具身智能一个很大的潜力市场就是教育领域。
另一家有代表性的企业是美国的波士顿动力,2005 年发布四足狗BigDog,2013 年推出Atlas 系列人形机器人,到2021 年有了快速的发展。
众所周知,近几十年来人形机器人的发展非常迅速,特别是我国这几年,例如2025 年春晚上,1.5 岁的宇树H1 机器人登台表演,引爆了公众对具身智能市场的关注。
2 具身智能的市场规模
根据摩根士丹利2025年6月发布的《Robotics Unleashed, A New Era》报告,随着大模型的出现,以及VLA(视觉、语言和动作模型)技术的发展,机器人技术已经从单一、原有的自动化,逐渐向通用智能不断演进,逐渐进入智能时代。
根据这份报告指出,泛机器人市场呈快速增长的势头。尤其中国市场增长快,2024 年中国机器人的市场规模大概占到全球总量的40%,达到470 亿美元;预计到2028 年,按照年复合增长率23% 测算,市场规模将会增加到1080 亿美元。
泛机器人市场包含了很多产品形态,不仅有人形机器人,还有工业机器人、协作机器人、移动机器人、服务机器人,另外把无人机也归入进来(图1)。
图1 泛机器人市场
3 具身智能的定义、分类与特点
具身智能是一种基于物理身体进行感知和行动的智能系统。基于智能体和环境的交互来获取信息,然后理解问题,做出决策,最后采取行动,是一个典型的闭环。
本质上,它强调了物理身体、智能体。智能体的形状可以很多,例如可以是固定式,也可以是移动式(包括自动驾驶车),还可以是仿生式,例如杀人蜂。当然,现在市场上最火爆的是人形机器人。
具身智能系统可以分为三个层次。
● 第一个层次是应用与感知层,主要是各种传感器的集成,包括视觉、语义(听懂自然语言)、听觉、触觉等。这一层的计算频率/ 应用频率大概在10~30 Hz。
● 第二个层次是任务分析和规划层。目前具身智能的解决方案大部分采用的是大小脑结合的方案。具身大脑(1~10 Hz)主要是做环境分析、顶层规划和记忆构建,相对算力要求更高;具身小脑(30~100 Hz)主要做抓取动作的预测、导航轨迹的规划,特别对于人形机器人场景。
大小脑的处理速度、频率的要求是不同的。目前业界主要采用大小脑的协同方式。
值得一提的是,前面感知层、大小脑层甚至人的大脑分成两个脑,但人脑没有具体的哪个脑是专门控制哪个位置的,特别是感知层面,没有说若挖掉了某个部位,人就不能干某件事情——它们是互补的。
● 第三个层次是本体运动和执行层(500~2000 Hz)。
本体运动包括了信息反馈和本体控制两部分,后者/本体控制包括了运动避障、平衡控制。现在有很多具身智能机器人,例如人形机器人运动会上,人们可能更多的是关注本体控制,是否能做各种动作,诸如跑步/ 马拉松,跑马拉松时原来会摔倒,现在跑得更好;包括打拳等,都是本体执行非常好的一种体现。
但是从长期角度看,推进智能的发展还是核心,即具身大脑和具身小脑的发展。
4 大小脑结构的挑战
● 大脑。具身大脑通常基于多模态的大模型,从单一任务向复杂多任务的方向发展。
关于多模态大模型,如果面向单一任务,计算特点是基于图像和文字的多模态输入,会造成输入的令牌较多,但是实际输出的令牌较少。面临的主要挑战包括如何基于预训练的多模态大模型在真正应用环境中实现高效的多模态融合,以及如何降低令牌计算的延迟等。
具身智能的大脑逐渐从单一任务转向复杂多样的融合、深度推理的模式,包括一些记忆能力。计算特点主要是要记忆信息造成上下文之间的需求,深度思考,增加推理解码的长度。而且处于复杂环境,特别是人形机器人是在一个动态多变的环境下,就提出了高响应的需求。
主要挑战包括前述的上下文的问题,深度推理的问题,各个阶段的算力不同,仿真、存储的需求。
● 小脑。由于小脑主要负责控制。传统的具身智能小脑往往采用固定规则,包括一些小模型。
大脑是大模型,小脑做小模型。大模型计算频率会较高,小脑的计算实时性要求会非常高。
但是问题在于,如果是模型很小的情况下,很明显没有像大模型那么好的泛化能力,也就意味着一旦给小脑烧好了一个模型,它能执行的任务就是这么多。因此会经常看到一些机器人,例如它本来想打拳击,但是往后退两步可能会摔倒,因为它的模型不是聚焦在防摔的。所以泛化能力不是弱,而是非常弱、极弱。
当然现在也有基于大模型的具身智能小脑的路线,主要聚焦在两个方面:VLA(视觉、语言和动作模型),快慢系统。
● VLA 是基于预训练完成视觉、语言大模型的初始
化,然后在具身的数据上进行微调,因此这个闭环显著
提升了泛化性。但是问题在于它本身是基于大模型初始
化的,所以对算力和缓存的需求量非常高,所以可能小
脑变成大脑,这就使小脑/ 端测原有的小算力芯片对算
力的需求越来越大。
王源教授团队调研了市面上的一些具身智能公司,
发现小脑的算力目前很难满足需求。
● 快慢系统。快慢双系统顾名思义就是要实时处理
的,快系统对指定的场景进行现场理解,慢系统再进
行快速动作的生成。可见有一个先理解、后生成的过
程,二者是异步的计算,并不是同步完成的。但是很明
显,快慢系统如果是异步的,它的模型应该也是异构
的,所以需要平衡计算资源。对于小脑,到底是满足慢
系统——模型相对大一点,但是时间/ 周期稍长;还是
满足快系统?
这两年,快慢双系统的发展非常快,从2024 年开
始到2025/ 今年,时间迭代非常快。包括前述的VLA
也是如此快。
前面分析了目前大小脑本身的一些问题,会看到目
前具身面临的挑战主要体现在下面几个方面。
第一,泛化能力不足。只能在单一场景中表现得较
好,但别指望像人一样可以在不同的场景里去学习,可
能换一个场景就变成了傻子。所以在新环境中它很容易
失效,所以我们现在不能对现有的具身智能或人形机器
人的期望太高,特别是它缺乏像人一样的迁移和学习的
抽象能力。
第二,目前很多具身智能的模拟是在仿真模拟环境
下完成的,而应用场景是现实的物理世界。怎样把现实
的物理世界和赛博空间做很好的联系?这方面还有很大
的差距。如果仿真环境和现实之间差距太大,往往训练
出来的模型难以直接部署。
第三,大模型和小模型有各自的算力要求,而且算
力之间又存在兼容的问题,所以成本很高,还有在真
实环境中,做小样本学习或者在线学习的普遍效率是较
低的。
5 具身神经智能的优势
5.1 具身智能的局限
据调研,目前具身智能公司的主要解决方案还是基
于英伟达平台,是典型的GPU 架构,即基于深度学习
方式来做,以提供足够的算力来解决。
但是实际上,具身智能是物理世界和虚拟世界交互
的,人最擅长做这件事,但是目前所有的具身智能在神
经机制方面是有缺失的,缺乏对人/ 生物系统的借鉴。
所以王源教授的报告叫具身神经智能。“神经”指
神经系统。希望能够把具身智能和神经形态计算或神经
系统相结合,能够让具身人形机器人真的像人一样。当
然人也有很多不擅长的地方,例如看不远、听不清,因
此除了发挥人的优势外,也可以通过传感器来弥补人的
劣势。
人能很好的自学习或在线学习,这种学习方式能够
实现智能计算的可适应性、可配置性,在灵活性方面有
很大的优势,但现在的具身智能很明显存在一些问题。
具身智能是大小脑结构,但人不是大小脑结构,是
一个全脑。具身智能的大小脑有异构性的特点,从算
力、速度、存储等角度看,大脑和小脑的需求是不一样
的,这也就意味着很难把不同的算力平台进行融合;而
人脑不是这样,人脑是一个完整的结构。
5.2 如何从具身智能迈向具身神经智能?
● 让AI 不仅会感知和行动
我们现在的认知是基于大模型的认知,并不是人的
真正意义上的认知。人的认知范围是很复杂的,除了学
习之外,还有情感、思维等。所以希望具身智能不仅会
感知和行动,而且会像人的神经系统一样自组织、学习
和适应。
所谓的具身神经智能就是把类脑智能和具身智能相
结合,使智能体具备感知、决策和应用能力,同时利用
类脑架构的高效率和自适应性,实现端到端的高等级具
身神经智能。
它有几个基本的特点。
第一,感知和行动。我们可以参考现在的神经具身
智能本身的特点,我们通过多种感官系统获取外部的信
息,并通过动作系统与环境互动。但是它的计算平台可