3月10日,智元机器人发布了自主研发的第一代通用具身智能基座模型——智元启元大模型GO-1(Genie Operator-1)。
据悉,该模型开创性地提出Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。
其中,VLM借助海量互联网图文数据,实现了通用场景感知和语言理解能力;MoE中的隐式规划器通过大量跨本体和人类操作视频数据,获得了通用的动作理解能力;而Action Expert(动作专家)则凭借百万真机数据,实现了精细的动作执行能力。
GO-1大模型借助人类和多种机器人数据,可以让机器人通过观看人类操作视频,就能像人类一样学习和执行各种任务。该能力还可以泛化应用到各类的环境和物品中,有利于机器人快速适应新任务、学习新技能。
测试结果显示,GO-1的表现比之前的最好模型强很多,比如在倒水、清理桌面等任务上,成功率从46%提升到了78%。
图源:智元