在上海市智元机器人数据采集中心的厨房场景中,一名数据采集员手持操作手柄指挥着机器人用一只手在调料架上拿起鸡精调料瓶,另一只手轻轻打开调料瓶盖子,小心翼翼地捏起瓶内的小勺,将鸡精撒入锅中。之后,机器人将调料勺放回调料瓶,盖上盖子,将调料瓶放回调料架。这样,一条接近真实使用场景下的数据采集才算完成。
记者近日实地走访智元机器人,探究人形机器人的应用前景。智元机器人研究院执行院长、具身业务部总裁姚卯青表示,人形机器人走向家用市场大约需要5年时间,而价格可能在5万元这一级别。
“数百条数据能实现比较好的倒水效果”
人形机器人的话题已讨论多年,但近期着实又火了一把,从央视春晚的机器人扭秧歌到资本市场相关板块的火热、投融资市场的摩拳擦掌,人形机器人成了科技赛道上的 “流量密码”。
▲智元机器人人形机器人产品。
上海市张江机器人谷聚集多家机器人行业的知名公司,成立于2023年2月的智元机器人就是其中之一。目前,智元机器人已完成多轮融资,公司估值超过70亿元人民币。
姚卯青对记者表示,一方面,资本市场的大力推动对人形机器人的发展起到了很大作用,另一方面大语言模型不断实现突破,给机器人的智能化提供了技术基础。
数据尤其是高质量数据,就如同一道道练习题,大模型在数据的不断投喂下进行练习与模仿,才能变得更加智能。而是否拥有高质量数据,成为发展人形机器人的卡点之一。
▲智元机器人数据采集中心。
在4000平方米的智元机器人数据采集中心,搭建出家居、餐厅、工业、商超、办公五大类场景,包含超过两百个细分场景的任务。在这些场景中,数百名数据采集员通过头戴VR眼镜、手持操作手柄指挥着机器人进行各种动作。
记者看到,在数据采集员的操控下,一台机器人拿起桌上的茶壶,慢慢地将水倒入面前的杯子中,然后将水壶放回原位。不过,重复、单一的数据,对训练大模型作用甚微,采集过程中,数据采集员会不断挪动杯子和茶壶的位置,记录下不同场景下的数据。同样,采集机器人扫地时,数据采集员也将垃圾摆放在不同位置,通过操作手柄让机器人手臂上的吸尘器去吸取。该数据采集员表示,这项动作一天约能采集数百条。
姚卯青说:“智元机器人的模型训练路线与语言大模型比较类似。最开始是预训练,该阶段使用尽量多的数据进行训练,形成对环境的基本感知等。之后,会采集数百条高质量数据,里面也会做一些泛化,比如倒水的动作,对水壶、桌面、光照等进行更换,拿放位置及倒水姿态进行调整等,大概数百条数据能让机器人实现比较好的倒水效果。”
智元机器人数据采集中心负责人阮丞向记者解释称,教会人形机器人学会每项动作需要采集多少条数据,因任务和要求不同可能有所差异,没办法准确量化,而且,随着对人形机器人的要求越来越高,可能需要更多的数据。
“解决一个工序也有上万台市场规模”
2023年11月,中国工业和信息化部发布的《人形机器人创新发展指导意见》中提出,到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给。整机产品达到国际先进水平,并实现批量生产,在特种、制造、民生服务等场景得到示范应用,探索形成有效的治理机制和手段。
今年1月初,智元机器人对外宣布,公司通用具身机器人累计下线达1000台。此前,中国国内的傅利叶、宇树科技等机器人公司也对外宣布过有关机器人量产的消息。国际上,埃隆·马斯克在今年1月份表示,特斯拉计划在今年生产数千台套人形机器人Optimus,若进展顺利,明年产量将达5万至10万台。
▲智元机器人上海临港量产工厂内正在组装的人形机器人。
记者在智元机器人上海临港量产工厂看到,一些机器发出嗡嗡声响,200多名工人操作着不同的程序组装人形机器人,一些已经下线的机器人还需要进行最后的测试。
智元机器人制造部总经理张绍政对记者称,除了一些标准化的组件外,人形机器人的大多数核心部件都是该公司自研,再交由相关工厂完成部件的生产后,最后的组装交由临港量产工厂完成。目前,临港量产工厂的年产能达到了数千台,后续还有进一步扩大产能的计划。
智元机器人已交付的机器人主要用于工业生产场景和一些展馆内机器人导览介绍等交互服务场景。在工业生产场景,机器人主要从事“PPT”工序,即Pick(抓取)、Place(放置)和 Transfer(转运)。姚卯青表示,在汽车制造、3C制造等场景下,机器人可以替代一些重复、机械的工作,需求量庞大,“解决一个工序也有上万台市场规模,未来如果真正能实现完全的工业自动化,人形机器人行业会成为比汽车制造业更大的一个产业。”
借鉴自动驾驶的等级划分思路,智元机器人将具身智能技术的发展也分为五个阶段,即G1至G5。G1阶段,属于基础自动化阶段,基于简单的机器视觉加上人工程序化编程,这一阶段的机器人系统设计和配置都针对特定的应用需求,缺乏泛化能力。G2阶段,通过抽象出可复用的原子技能,机器人可以实现一定程度上的场景迁移和泛化。这一阶段的机器人已经能够基于大语言模型(任务编排大模型)进行任务编排,具备一定的智能水平。到G3阶段,机器人将能够更灵活地适应不同场景和任务,通过持续学习不断优化自身性能。
姚卯青说:“目前整个行业的具身智能技术还处于G1到G2的阶段,学术阵地可能到了G3阶段。到G4阶段,我觉得还需要5年时间,而到G5阶段则要10年。简单讲,在G3阶段,具身智能技术会在单一任务上可以实现与人一样的成功率;在G4阶段,可以实现用一个模型完成多种任务;到G5阶段,则是具身智能技术的终极形态,它可以实现推理、反思、纠错。”
就智元机器人而言,姚卯青透露,公司今年计划走通G3阶段产品的技术路线,明后年会继续向更多场景与任务进行拓展,同时对G4阶段的产品进行一些布局。
走向家用市场或需要5年时间
相比于一些花式炫技,消费者更关心人形机器人何时能够“飞入寻常百姓家”。
▲智元机器人上海临港量产工厂内的人形机器人。
今年2月,宇树科技的H1和G1人形机器人开售,G1的售价为9.9万元,H1的售价为65万元。2024年12月,众擎机器人的人形机器人PM01发售,售价8.8万元。
目前,智元机器人的客户主要来自企业端,采访中并未透露人形机器人的零售价格。但姚卯青称,智元机器人的人形机器人产品的生产成本正在不断下降,每年大约会有15%~20%的降幅。人形机器人的成本主要是一些关节类组件,随着行业量产,这类组件的价格会明显下降。智元机器人去年推出了全栈开源机器人灵犀X1,科技爱好者、开发者可在智元商城购买相应的组件套餐。
姚卯青预计,人形机器人走向家用市场,大约需要5年时间。他说:“走向家用的人形机器人,到时能接受一些开放式的指令,可以从事一些常见的家庭工作,比如取放东西、泡杯茶、拿快递、丢垃圾、叠被子、洗衣服等常见工作。走入家庭的产品,价格可能在5万元这一级别。”
姚卯青称,具身智能技术发展到G4阶段时,智力上与人已经差不多,在居家场景使用时,会替代家政服务人员完成部分基础工作,但体力上是否可以跟上要取决于硬件的迭代情况。他说:“是否能让人形机器人爬到窗户外面擦窗,这还需要行业共同努力。”
姚卯青表示,人形机器人的发展也面临硬件与软件上的瓶颈。硬件方面,对机器人的手部研发亟待突破,目前市场的高自由度灵巧手的灵活度与人手相比仍存差距。另外,关节和电机的轻量化、小型化,外壳材料的高强度、轻量化、仿真化,电池的功率密度的提升,芯片的更大算力及更低成本,更丰富和精密的传感器等,都需要改进。软件方面,具身智能技术还处于G1到G2阶段,因此在算法方面还有很长的路要走,这中间,数据也比较核心。
当前,全球多个国家都在人形机器人行业发力,中国的优势在哪里?姚卯青表示,一是,供应链方面,中国拥有庞大而完整的零部件供应链,这是其他国家或地区无法比拟的;二是,人才方面,中国拥有数量庞大的工科人才和专家队伍,人才的专业技术过硬,同时,整个人力成本也相对较低;三是,政策支持,政府部门对人形机器人的支持力度较大。
编辑 王世杰
责编 钟亮
审核 练才榕