2025年,具身智能正在迎来前所未有的发展机遇。从各种展会到论坛,人形机器人的身影随处可见,无论是担任礼宾引导、搬运物品,还是参与快递分拣、折叠衣物、整理冰箱等任务,似乎都在展示着机器人技术的巨大潜力。然而,热闹的背后却隐藏着一个不容忽视的尴尬现实:机器人落地的难度依然很大。
“现实世界从来不是Demo(演示)。”智元机器人的合伙人及首席科学家罗剑岚指出,真实环境中充满了各种不可控因素,决定机器人能否真正投入到正常的使用中的关键不在于它是否能完成某项任务,而在于它的可靠性和应变能力。
在这样的背景下,智元机器人推出了面向真实世界应用的在线后训练系统SOP(集体在线学习系统)。这一系统重构了机器人的学习模式,将传统的实验室训练推向真实世界的“实战练兵”。
长期以来,具身智能的发展主要依赖于VLA(视觉-语言-动作)技术。该技术通过将人类指令与外部声音、图像和视频等信息转化为计算机可理解的语言,进而控制机器人的行为。简单来说,VLA让机器人通过观察图片、聆听声音和观看视频来学习,属于一种“离线学习”模式,通常在数采厂内进行。
虽然这种训练方法在早期确实取得了一些成功,教会了机器人许多基本技能,但在面对复杂且不可控的真实物理世界时,机器人却显得无能为力。罗剑岚将这样的一种情况比作“在山洞里练功”,直到真正走出山洞与对手较量时,才发现招式远远不足。想要提升,机器人只能回到山洞反复修炼,进化的效率显得十分低下。
SOP的目标是让机器人在“集体在线学习”中快速成长。罗剑岚解释,SOP模型的核心在于构建一个学习闭环。就像将一群练就基本功的机器人送去江湖历练,无论是成功还是失败,经验都会被实时汇总并反馈给云端算法模型做多元化的分析与总结。待“宗师”补全招式漏洞、即时更新秘籍后,再统一传授给在外历练的弟子。
通过这种循环,整个机器人群体能够在真实世界和真实任务中持续进化,慢慢的变聪明。
智元发表的SOP相关研究表明,经过3小时的在线经验训练,机器人的性能能提高约30%;而若额外引入80小时的人类专家标注数据,性能提升幅度仅为4%。罗剑岚指出,这3个小时的数据正是来自真实场景中的失败经验。当一个机器人犯错,所有机器人都能迅速学习怎么样避免同样的错误。这种高效的在线互学,显然胜过数采厂的“填鸭式教学”。
根据智元的数据,在商超整理、叠衣服和纸盒装配等测试场景中,引入SOP后,机器人整体性能明显提升。在物品繁杂的商超场景中,综合性能提升约33%;而在叠衣服任务中,操作吞吐量提升高达114%。此外,经过SOP训练后的机器人在长达36小时的连续运行中展现出卓越的稳定性和适应性,能够有效应对现实世界中的各种突发情况。
目前,智元已经在真实世界中部署了数十台机器人以进行SOP开发。“今年预计将在真实场景中增加几个量级的部署规模。”罗剑岚表示,这是具身智能向真实世界迈出的第一步。他认为,机器人不应仅仅是性能固定的产品,而应成为持续进化的智能体。未来,人形机器人产业将可能从一次付硬件,转向软硬件一体的持续服务模式。
就像无人驾驶系统一样,车辆售出后软件仍在一直更新升级,机器人进入工厂和家庭后也将持续进化,一直在优化使用者真实的体验。当然,这一进化过程仍需解决安全和隐私等问题。
罗剑岚判断,2026年将是机器人从“能做事”到“把事情做好并真正落地”的关键节点。未来,谁在真实世界中部署的机器人越多,谁就能获取更多高价值的数据,训练出更优秀的模型,从而形成正向循环。智元公司表示,SOP将率先推动人形机器人在工业场景中的长期稳定运行,将任务成功率提升至可规模化上线的水平。
在家庭场景方面,智元也在逐步布局,未来将结合SOP逐步扩展机器人的任务能力。罗剑岚透露,除工业场景外,商超、文娱及部分家庭场景也在今年逐步推进。他希望在上海的便利店和超市,能看到机器人真正投入工作。就在几天前,智元的灵犀X2机器人已通过机器人租赁平台“擎天租”进入位于上海漕河泾的美宜佳便利店,成为该门店的长期机器人员工。
随着具身智能的不断突破,未来的机器人将不单单是工具,而是能够在真实世界中与人类协作的智能伙伴,推动各行各业的转型与升级。返回搜狐,查看更加多