具身智能首份行业标准正式实施,构建统一的基准测试框架

随着该标准正式实施,具身智能基准测试评测项目也将依据其开展。

2026年,具身智能机器人进入快速量产阶段,但一个令采购方头疼已久的困境是每家企业都在宣传自己的“任务成功率”,但彼此之间缺乏统一的测量标准。实际中的情况是,有人用仿真环境自测任务成功率,有人用特设的演示场景测试任务成功率,还有人用工业场景的数据标注家用场景。

6月1日,YD/T6770-2026《人工智能关键基础技术具身智能基准测试方法》正式实施。这个由工信部批准、中国信息通信研究院联合40余家单位起草的国内首份具身智能行业标准,正式带领具身智能评测迈入“有标可依”的新阶段,为这场混乱的竞争按下终止符。

从标准的内容来看,该标准规范了在仿真环境和真实环境下,开展具身智能基准测试的环境设置、任务库构建、测试过程和指标计算等方法,适用于对技术提供方提供的具身智能系统(包括模型,部署模型的整机系统)开展“感知-决策-执行”全链路能力测试。

同时,该标准还构建了统一的基准测试框架,提出了覆盖静态仿真测试、动态仿真测试、真实环境测试和组合式测试四种方法的评测体系,用于评估具身智能系统的基础能力、认知推理能力以及全链路闭环能力。

随着该标准正式实施,具身智能基准测试评测项目也将依据其开展,目前已开放工业场景、家庭场景、零售场景、清洁场景和巡检场景五个大场景的15个子场景。工业场景子场景涵盖工件分拣、料籍搬运、包裹分拣;家庭场景子场景包括桌面分拣、叠衣服和做咖啡;零售场景的子场景包括物品打包、商超分拣、售卖饮料;清洁场景的子场景包括地面分拣、桌面擦拭和洗漱台整理;巡检场景的子场景包括自主开关门、按下按钮和移动报警。

针对每个测试场景,该标准还设置了基础级(T1)、增强级(T2)、挑战级(T3)三种任务难度,全面考查模型或整机系统在真实场景下的智能水平和作业能力边界。

可信的评测体系是连接技术研究与大规模产业应用的桥梁和标尺,该标准将为行业建立互信基础,其实施对于具身智能行业发展将产生三方面的深远影响。

其一,能力评估依据统一,指引技术迭代。

中国信通院有关负责人表示,此前,各厂商发布的性能数据大多来自私有测试环境,标准不统一,采购方无从判断真伪。YD/T6770-2026建立的是一套公开的基准测试方法——任何一家企业声称的“任务成功率”,都将在同一把尺子下接受检验。这将倒逼企业在真实能力上展开竞争,而非在宣传话术上内卷。

其二,可信的采购依据开始形成。

某机器人企业有关负责人评价称,该标准统一了评测标尺,使不同技术路线在相对一致的框架下可比、可测,降低了研发成本,为产业规模化落地护航。同时,对下游的家电企业、康养机构而言,引进服务机器人的决策逻辑将从“听谁家吹得好”转向“看谁家测得实”。这一转变,是家用服务机器人从试点走向规模化的必要前提。

其三,竞争逻辑正在迁移。

当减速器、无框力矩电机、灵巧手等核心零部件逐步实现国产替代、硬件方案趋于收敛,行业竞争的重心正在向两个方向集中:场景数据的质量和规模,以及基于标准化测试持续迭代的能力。YD/T6770-2026的实施,恰恰是这一趋势的制度确认。

赞 (0)
上一篇 2026年06月05日 13:01
下一篇 2026年06月05日 13:01