来源:联想创投
从人工智能、具身智能、脑机接口到量子计算等领域,科技创新在中国大地上浪奔浪流,新一代创业者以原始创新为使命,破土而出。
联想创投作为联想集团的“科技瞭望塔”,以“科技•产业•CVC”为特色,坚定投早、投小、投硬科技。截至目前,联想创投累计投资超过300家科技企业,其中有141家被投企业上榜国家级及省市级专精特新、62家上榜国家级“小巨人”,培育出50余家细分领域的独角兽。
我们特此推出“中国式创新”系列特辑,讲述我们与被投企业的幕后故事,已发表的系列文章如下:
当具身智能引发全球热潮,机器人的大脑如何才能摆脱对高成本真实数据的依赖,真正理解三维物理世界,进而在新场景、新任务中具备快速学习技能的能力?
本期“中国式创新”,我们将聚焦联想创投生态中的具身智能先行者——跨维智能。面对具身智能训练数据稀缺且昂贵的全球性瓶颈,这支由香港中文大学(深圳)终身教授贾奎带领的团队选择了一条合成仿真的颠覆性路径。与我们前面提到的戴盟“死磕”触觉不同,跨维选择了一条视觉之路。
他们成功构建了Sim2Real技术,用零成本的“立体教材”为AI喂养经验,让机器能在虚拟环境中习得物理世界运行逻辑,实现了100%合成数据达到智能制造级99.9%成功率的突破。这不仅大幅降低了具身智能的商业化门槛,也为中国制造的柔性升级和通用人形机器人落地,提供了高效低成本的最优解。
——编者按
早在2016年,贾奎——这位从中科院、UIUC新加坡研究院走出的学者——就敏锐捕捉到三维空间理解的巨大空白。他回到华南理工大学,成立了国内最早将AI应用于三维空间的团队。他知道,要让机器真正理解曲面、习得物理世界的本质,机器人是最佳的载体。
何为“将AI应用于三维空间”?不妨先找找它的对立面,会看得更清楚。
我们生活在立体的三维空间,其对立面,就是传统AI存在的二维屏幕与抽象数据。例如语音助手只能处理指令,图像识别仅理解平面像素——它们缺乏对深度、重力、交互的切身感知。而“具身智能”的突破,正是让AI通过机器人等物理载体,学会在三维世界里移动、操作并适应物理规则。
服务型机器人在咖啡馆为顾客提供饮品服务。
然而,随着技术的推进,实验室已受限于数据和资源的瓶颈,要将这项超前的研究推进,贾奎必须做出抉择:是继续在象牙塔内保守研究,还是跳入市场化的江河湖海?
他选择了后者。
但这条创业之路,比想象中更冷清。在公司创立初期,具身智能还是一个陌生的名词。跨维智能的核心技术范式——基于合成数据的具身智能——在市场上显得过于超前。
这套技术,其原理是在物理仿真机器人操作场景中,引入各种与任务相关的真实世界的干扰,再通过渲染、轨迹数据记录、关节数据记录等方式形成海量的精确标注合成数据,并用于具身智能大模型。
通过跨维智能DexVerse™具身智能引擎生成的汽车车门芯训练数据。
但理念太过超前,有时反而会成为阻碍。贾奎坦言:最大的挑战是投资人听不懂,因为没有风口,我们不得不将自己描述成“数字孪生”解决方案商。
正是在这种不被理解的冷启动阶段,跨维智能展现出了惊人的脚踏实地,当其他公司还在竞相发布炫技Demo时,跨维智能默默用实力给出答案:
截至目前,跨维智能已累计服务上百家客户,落地数十个智能制造场景,2024年营收就已达到亿元级。这使其成为具身智能智能制造场景落地领域毋庸置疑的领跑者。
联想创投正是较早看懂其技术路线与商业潜力的机构,于2023年底领投了跨维智能的战略轮融资,并在2025年7月追加投资。联想创投投资负责人在评价其数亿元融资时指出:“跨维智能是赛道罕见的既仰望星空(技术超前)又脚踏实地(商业落地)的企业。”这种专业的洞察力,也让跨维智能的真正价值,被资本市场看见。
从95%到99.9%
一个客户逼出的颠覆性技术
面对资本市场的质疑和冷启动的困境,跨维智能唯一武器是“客户的真金白银”。
跨维智能的第一个天使客户,是南方某知名家电制造商。客户的挑战非常典型:工厂生产线上堆满了各种杂乱、无序的零件,急需机器人精准识别并抓取。这正是传统程序控制的机械臂做不了的高难度杂活。
贾奎团队进驻工厂,很快用“三维几何深度学习”概念解决了最初的难题:从智能制造中的引导、检测、测量等各类场景,抽象出基于自研软硬件产品的“泛智造+”视觉解决方案,其3D视觉无序抓取解决方案别精度高、稳定性好,能适应各种中小型零件的无序抓取需求,提升生产效率。
跨维智能Kingfisher双目立体智能相机与工业机械臂相结合,基于DexVerse™具身智能引擎,预训练的3D视觉大模型,能够稳定识别不同种类、纹理、图案的麻袋、箱子等。
然而,新的冲突随之出现——技术可行不等于商业可行。
贾奎发现:“算法在实验室里成功率达到95%,就属于很了不起了,但要在工厂里长期、稳定运行,这个数字必须要达到99.9%。”团队为实现这4.9个百分点的跨越付出了巨大代价。更致命的是,他们意识到:智能制造客户对成本是斤斤计较的。
如果还按照传统方式,即不断采集真实物理数据来训练机器人,成本根本无法控制——每一次换产、每一次新零件出现,都意味着昂贵的采集和标注工作。根据国际机器人联盟(IFR)2023年报告,一台智能制造机器人在真实环境中采集1TB有效训练数据的成本约为50万美元,且耗时长达数月。这让具身智能的商业模式在成本上彻底行不不通。
此外,数据稀缺也是具身智能领域公认的全球性瓶颈。清华大学人工智能研究院院长姚期智院士曾说:“当硬件性能达到一定阈值后,决定AI智能水平的不再是硬件本身,而是数据的规模与质量。”
不同于二维模型只需图片和文本,具身智能需要的是海量、带有精确物理坐标的动作数据,其获取难度和成本远超语言模型。例如,为训练一个家庭服务型机器人,需要让它经历数千种摔倒场景、数万次抓取失败——所有数据都在物理世界中采集,几乎不可能实现。
想让机器人通过多维感知去理解真实世界,就需要提供具有精准标注的空间数据,涵盖光线折射、物体摩擦系数、刚体与流体动态变化等多维度细节。
贾奎团队在实验室成立之初就意识到了这一点,并尝试以自研的Sim2Real(从仿真到现实)技术为核心,通过物理引擎去合成3D仿真数据。
Sim2Real并非简单的游戏建模,而是AI领域公认的、解决具身智能数据鸿沟的核心路径之一。他们不再依赖人工,而是通过强大的物理引擎构建出一个高保真、低成本的虚拟环境,就像在《黑客帝国》中一样,光线折射、物体摩擦系数等细节都与现实完全相同。机器人可以在这个虚拟训练场中进行海量训练,从而掌握万千复杂场景,还能在复杂环境中灵活应变,更好地完成现实任务。
更重要的是,整个过程数据自动生成,无需依赖人工大量采集,成本几乎为零。
由跨维智能的具身智能开发平台EmbodiChain所训练产出的VLA模型。
国际咨询机构弗若斯特沙利文于2025年9月发布了《2025年中国合成数据解决方案发展洞察》报告,认为未来的数据范式正朝着“1%人类数据+99%高效合成”的混合模式演进:具身智能所依靠的数据,99%可借助高质量的合成数据完成,只有在合成数据无法处理的情况下,才需要有针对性地采集使用1%的真实数据。
而跨维智能实现了比之更颠覆性的目标:以100%的合成数据,在毫米/亚毫米的操作精度要求下,达到了99.9%以上的任务成功率。这一成就彻底消弭了合成数据与真实数据之间的鸿沟,也为具身智能的规模化商业落地,找到了高效低成本的最优解。
破解柔性制造痛点
从大力士到智能工匠
谈及具身智能,大多数人首先想到的,往往是人形机器人,似乎它才是这一概念的“标准形态”。
但事实上,智能制造具身智能机器人与人形机器人的核心技术原理一脉相通,二者均融合了感知、学习、决策与执行这四大关键能力。只是在智能制造场景中,这项技术更多地以机械臂的形态落地。
传统智能制造的机械臂,是上一代智能制造革命的“蛮力英雄”。它们本质上是“代码的奴隶”:只能执行预设好的、大批量、单一品种的程序,缺乏临场应变能力。如果你想让一个正在拧螺丝的机械臂去贴标签,那就得花大功夫重新设计和调试。
然而,从早期单一品种大批量生产,到多品种小批量轮换,再到如今按需定制的柔性制造,随着全球制造业升级浪潮的推进,生产线对设备灵活性的要求持续攀升。当今全球制造业,特别是中国新能源、电子产品等高价值领域,正加速拥抱这一变革。
从联想集团南方生产基地柔性生产线下线的两台机器人。
这造成了一个巨大的智能制造难题:工厂迫切需要灵活的熟练工种,但现有机器人依赖固定程序运行,智能化水平低。这道柔性痛点,是制约现代工厂效率提升的关键,也是具身智能的核心实战战场——让机器获得认知能力,实现生产线的弹性与灵活。
具身智能是AI与机器人的深度融合,跨维智能的解决方案,正是通过高维认知赋能传统机械臂。这套系统可以看做其Sim2Real/GS-World引擎的实战化体现:
高可靠3D视觉是其眼睛。传统的3D视觉系统在工厂的复杂光线、高反光材质面前,极易失败。跨维智能自研的纯视觉传感器,如同为机器人配备了超感官,使其能够在恶劣环境中依然能以毫米/亚毫米级精度,清晰捕捉物体的深层立体轮廓,实现了极高的视觉识别率。
AI决策引擎是其大脑。核心的DexVerse引擎,将Sim2Real赋予的海量经验导入。它让机械臂跳出程序的限制,拥有了临场决策能力。当遇到从未训练过的零件或意外状况时,它能像经验丰富的老师傅一样,迅速判断、自主调整。
当感知与决策融为一体,传统的“大力士”机械臂就完成了向具备柔性化生产能力的“智能工”的升级,正中中国制造转型升级的关键痛点,也让跨维智能“将AI应用于三维空间”从技术概念落地为具备实际价值的智能制造产品。
基于在智能制造领域的高精度积累,跨维智能还将这套成熟的具身智能开发范式向更广阔的通用领域延伸。
2025年10月,跨维智能也提出了基于生成式仿真的世界模型GS-World,这正是Sim2Real路线的重大升级。相比Sim2Real,GS-World能主动生成并仿真物理精确的三维世界,把看起来像真的世界真正变成了遵循物理规律可计算的世界。这意味着智能体在其中不仅能训练,还具备自我演化能力,形成“生成—交互—反馈—优化”的闭环。
GS-World提供了一个既能横向扩展智能广度、又能纵向精化智能深度的动态引擎,使具身智能得以在高效率、强自适应和持续演化的闭环中不断生长。
贾奎总结道:“它提供的不只是训练环境,而是一个能促使机器人实现身体与智能协同生长、自组织、自适应的物理-认知生态场;在这个意义上,GS-World成为具身智能机器人从人工设计产物走向自演化生命体的关键跃迁平台。”跨维智能正将这一前沿技术转化为智能制造和商业场景的生产力,与全球AI发展的最前沿趋势保持高度同频。
然而,无论是Sim2Real还是GS-World,其核心价值都需要通过产业实战来验证。跨维智能将这套高维认知技术,首先投向了传统制造业的柔性痛点。
GS-World世界模型推出后,更是为跨维智能的人形机器人提供了丰富的感知数据源,加速其功能开发与优化周期,从敏锐的动态视觉捕捉到精准的实时轨迹控制,从对物理世界的高保真数字还原到模型训练的效率跃升,正在构建一套能够落地于真实世界的具身智能开发范式,并最终赋能于千行百业的产业生态。
靠着这些技术积累,跨维智能拿下了首届WBCD(What Bimanual Can Do)双臂机器人挑战赛的冠军。同时,跨维智能在2025年1月推出了业内首款基于Sim2Real具身智能引擎定义的人形机器人W1,与优必选、普渡、数字华夏等企业的人形机器人并称为“深圳具身智能八大金刚”。
跨维智能联合创始人吴迪携人形机器人DexForce W1亮相深圳南山区企业风采嘉年华。
现在,W1已经升级到W1 Pro,标志着跨维智能在“硬件性能+软件生态”双轮驱动的技术路线上迈出关键一步。2025年10月份在北京举办的全球妇女峰会上,W1 Pro向各国来宾展现了自主制作咖啡的全过程,体现了其在商业服务、家庭陪伴等场景的无限应用潜力。我们有足够的理由相信,跨维的理想未来昭示了更和谐的文明发展蓝图。
CVC的新公式
联想的“同频”与“加速器”
用Sim2Real解决了数据难题、用DexVerse解决了柔性难题,在智能制造场景取得成功后,跨维智能决定用更复杂的载体验证自己的技术——他们开启了人形的本体研发,成功推出W1系列产品,并于2025年7月份发布全新一代人形机器人W1 Pro。
DexForce W1 Pro。
但一个新的、更现实的挑战随即摆在了跨维智能面前:如何将实验室里的“智能模型”快速转化为可规模化生产的“硬件产品”?
对于任何一家硬科技初创公司而言,自行搭建生产体系就是一道“死亡之谷”:
首要的压力来自于资金压力,产线搭建和设备采购是一笔很大的开销;其次压力来源于时间,寻找具备机器人生产经验的团队耗时耗力,往往拖慢产品落地节奏。
面对将人形机器人W1 Pro推向市场的关键时刻,跨维智能亟需的不再是纯粹的资金,而是一股能将“创新火花”迅速转化为“量产飓风”的产业力量。
联想集团的优势恰恰在于此——成熟的供应链体系、完善的生产管理能力以及经验丰富的制造团队。这不仅是资金的投入,更是联想集团作为CVC(企业风险投资)的“产业重力加速度”。
2025年10月17日,跨维智能的W1 Pro人形机器人,与另一家联想创投生态企业的产品一道,在联想集团南方生产基地量产下线。
联想集团南方生产基地车间,一台跨维智能DexForce W1 Pro已组装完毕,工作人员正用电脑操控,让其实现抬手、扭头、前进等动作。
联想集团为此创造了“一周完成试产”的高效纪录,并同步输出试产报告与工艺优化建议。在进入量产阶段后,联想集团进一步输出“光明计划”柔性生产能力,针对机器人复杂的结构特点与装配需求,优化生产线布局、规范质量检测节点,快速打通了“试产-量产”的转化链路。
依托联想集团的产业资源,跨维智能无需从零搭建,既规避了前期高昂的成本投入,又以行业罕见的速度实现了高质量交付,让技术验证与商业落地无缝衔接。
这种高效的“同行”,源于更深层次的“同频”。
贾奎团队从始至终只认准自研的路,他们深知中国机器人产业链的硬件强、软件弱短板,必须通过构建自主可控的底层引擎来解决。
机械臂在DexVerse™具身智能引擎中进行开箱训练。
联想创投正是最理解这种“自研使命感”的投资人。在最初的投资意向沟通过程中,联想创投没有揪着“能不能快速回本”去追问,而是认真倾听贾奎的技术理念和长期规划,还顺着核心的Sim2Real技术,问起了具体的细节。这种“一说就透”的默契,让贾奎觉得终于遇到了能聊到一起的专业灵魂。
更专业的尊重,体现在联想创投对技术验证的坚持:他们没有看到演示视频就拍板,反而要求跨维智能展示工厂里的真实作业情况,甚至特意让机器人挑战抓取透明杯子这种高难度任务。
这种基于事实的验证,体现了对硬科技的尊重,也让贾奎相信,联想创投是愿意陪着创业者一起承担长期使命的产业伙伴。
“我内心是有使命感的,就是希望中国能在这方面做得更好。这是时代赋予我们的机会。”贾奎说。而联想创投扮演的,正是那个助力科学家将报国理想高效转化为产业现实的加速器和赋能者。
对话跨维智能创始人
贾奎
Q:跨维智能刚刚推出了基于生成式仿真的世界模型GS-World,这种模型跟我们大众所熟知的生成式AI有何差异?未来大概会朝什么方向发展、解决什么问题?
贾奎: 生成式AI的发展其实有清晰的进阶路径,顺序是文本生成式AI-图像生成式AI-视频生成式AI-3D生成式AI-物理世界生成式AI。
如ChatGPT、DeepSeek这类工具,都是文本生成式AI,后来衍生出多模态,如Midjourney、Sora分别是图像、视频生成式AI。但这些模型生成的内容,只是物理世界在某个视角下的“镜像”,本质上还停留在网络空间里,所以有时会出现不符合物理常识的错误(比如物体悬浮、运动轨迹异常等)。
当进入空间与具身智能领域时,我们就需要3D生成式AI了,我们本次提出的世界模型就是这个方向。在统一的3D坐标系下,生成物理世界的“本体”:不仅要生成3D场景里的物体(比如篮球、地面),还要生成物体的属性(比如颜色、纹理、材质),更要生成控制物体运动的物理规律(比如松开篮球后,它会以多大速度下落、弹起时如何变形、弹多高等)。只有这样,才能从根本上解决图像、视频生成式AI出现的物理错误问题——相当于我们不是只生成画面,而是生成了整个物理世界的运行逻辑,可以理解为“给物理世界做了一个数字孪生”。
如果要畅想终极形态,那么其核心就是“自我演化”。机器人在这个数字孪生的物理世界里,不仅能感知和学习,还能自我进化:比如针对某个具体任务,机器人能自己优化形态、运动方式(比如调整机械臂结构、运动轨迹),找到最适合完成任务的方案,就像生物从简单形态进化到复杂形态一样。
Q:大语言模型发展有一条定律“Scaling law”,简单来说就是“数据越多AI越聪明”,在具身智能的发展中是否也适用呢?
贾奎: 当前具身智能面临最大的问题是真实数据不足,在数据范本缺失的情况下,Scaling law定律也就无法发挥作用。针对此,我们提出了“数据产生的效率”这一关键指标,明确了只有当数据生成效率足够高时,才能支撑模型的训练与优化,这相当于从根源上找到了突破路径,避免了盲目堆算力或模型规模的误区。我们把这个定律命名为“Efficiency Law”。
Q:从高校教授到创业者,你是如何建立起对商业的感知和判断的?
贾奎: 坦白讲,我并不属于擅长商业的那一类人,之所以能在商业层面推进,核心有两点:一是主动“补短板”,比如我邀请了曾主导多款成功产品的产品总监加入团队,弥补自己在产品商业化上的不足;二是“真金白银的投入”,主动授予核心员工期权,凝聚起集体感。
Q:多年养成的科学家的科学思维,与创业后的公司管理思维有哪些相同和不同之处?
贾奎: 确实有几个层面。一方面,我们这种教授或科学家出身的创业者,天然属于“有技术再找市场”的类型,长期科研训练出来的创新思维是一种本能,在技术先进性和创新性上有优势——毕竟科研的本质就是创新。不过,组织学术创新和组织产品业务创新不同,这点需要学习提高。
另一方面,科研经历培养的“洞见力”也比较有用,比如学习能力强、能跨学科整合科研和商业逻辑。但说实话,做企业本质上是跟人、跟社会打交道,和高校生态完全不同,学术跟企业的价值导向也不一样,这种差异有时甚至会产生冲突,而我需要在这两者之间来回切换。