近日,谷歌DeepMind宣布推出两款新的AI模型 ——Gemini Robotics 和 Gemini Robotics-ER,旨在推动机器人在现实世界中完成更多复杂任务,为新一代实用机器人的发展奠定基础。
图源:DeepMind
其中,Gemini Robotics是一款视觉-语言-行动(VLA)模型,基于谷歌最新版本的旗舰模型 Gemini 2.0开发。通过新增物理动作输出模态,该模型能够使机器人在未经专门训练的情况下,快速理解并适应全新情境。
该模型在通用性、互动性和灵活性三个关键领域取得显著进展:不仅能够应对各种新环境与任务,还能与人类及周围环境进行自然交互,执行诸如折纸、打开瓶盖等精细物理操作。
另一款模型Gemini Robotics-ER(具象推理)则专注于空间推理,旨在帮助机器人更好地理解复杂多变的现实世界,主要被用于解决在实际操作中需要考虑物体位置与操作方式的推理任务。
据悉,谷歌正在开发一套 “分层安全策略”,Gemini Robotics-ER已针对特定情境下动作安全性评估进行训练。
此外,谷歌DeepMind已与Apptronik达成合作,共同致力于 “打造下一代人形机器人”,Gemini Robotics-ER也已向Agile Robots、Agility Robotics、波士顿动力和Enchanted Tools等 “受信任的测试者” 开放。