• 发文
  • 评论
  • 微博
  • 空间
  • 微信

高阳带队,“边想边干”的OneTwoVLA会是具身智能的跃迁引擎吗?

具身研习社 2025-06-23 08:59 发布于北京 发文

 OneTwoVLA所展现的能力并不是“空中楼阁”,而是极具商业应用潜力的关键跨越,其展现出的动态纠偏与主动交互能力,已为其未来部署描绘出极具吸引力的应用图景。

 

作者:吕鑫燚

 编辑:狄鑫彤

出品:具身研习社

 

具身智能大模型,终于迎来了next level。

近日,具身研习社观察到出自清华团队的大模型OneTwoVLA,作者是清华大学交叉信息研究院的助理教授、千寻智能联合创始人高阳。该模型的“感知-决策-执行”闭环中多了点“人味”,主打“边想边做”,还能主动纠错甚至反问,让推理到执行全流程丝滑衔接。

 

图片来源:论文截图

精准执行“又难又细”的工作任务,是OneTwoVLA在视频中展现的核心能力。视频中,在该模型的加持下,机械臂能精准夹起滑溜的牛肉片、细长的金针菇,并能平稳地将食材放进漏勺等,进行一系列复杂长程操作任务;面对训练时从未涉及的指令(从冰箱里拿瓶冰可乐),也能在思考中畅快完成;还能进行自然交互,出现错误及时改正、遇到模糊指令进行主动反问。

值得一提的是,该视频所展现的能力并不是“空中楼阁”,而是极具商业应用潜力的关键跨越,其展现出的动态纠偏与主动交互能力,已为其未来部署描绘出极具吸引力的应用图景。

可以预见的是,在需要高精度、长时序操作且环境存在不确定性的场景——如复杂精密制造装配线、柔性化智能仓储分拣等,此类具备“类人”思考与执行协同能力的模型,将有望显著提升自动化系统的适应性、鲁棒性与任务完成度,从底层技术驱动具身智能机器人真正融入复杂、动态的现实世界工作流。

当前,具身智能领域正处于“脑力”关键技术突破的密集期,多种技术路线并行探索,远未达至收敛状态。“对于创业公司而言,未收敛才意味着有机会。”高阳对具身研习社表示。

这一“最强大脑”的真空期,对产业界而言,既是蕴藏巨大潜能的战略机遇,亦伴随着技术路径选择与生态构建的严峻挑战。站在机遇与挑战并存的关键节点,唯有锚定技术方向差异化持续深化技术壁垒,方能在具身智能这场“脑力”竞逐中占据高地,最终驱动具身智能机器人真正融入并重塑人类复杂多变的生产生活版图。

一个会“涮火锅”的模型

如何突破能力疆界?

透过该论文和OneTwoVLA视频演练来看,主要展现了长程任务规划和执行能力;自动纠错完成任务能力;思考反问的自然交互能力;开放世界视觉能力的高泛化性。四大能力融合到一个模型中,新的协作范式已经拉开帷幕,深度求索的OneTwoVLA架构,正在为这场变革按下快进键。

具体来看,长程任务规划和执行能力中,在接收到“调一杯莫吉托”的指令后,机器人稳稳地拿起薄荷叶倒进冰杯中,然后再按照调酒顺序依次从不同高度、不同位置的架子上精准找到基酒并依次倒入。整套流程毫无卡顿,动作之间十分连贯,颇具“金牌调酒师”风范。

 

图片来源:OneTwoVLA  

数据显示,OneTwoVLA 在这些复杂长程任务中表现,比纯动作VLA提升30%,比传统「双系统」方案提升24%。

值得一提的是,复杂长程任务是现阶段具身大模型厂商集体攻克的能力,但该能力对于“复杂”和“长程”两方面暂无标准,导致各家厂商的能力演示结果大相径庭。对此,高阳说道,在他看来,诠释“长程”至少需要5个连贯性动作的执行。

自动纠错完成任务能力则是在复杂长程任务的基础上,又叠了一层BUFF。执行任务时,出现抓取位置偏差,无论是抓偏了还是漏掉了,机器人都会马上意识到出现错误并进行及时调整。以执行炒菜任务时为例,机器人第一次没能成功抓取油瓶,在几秒内迅速做出二次抓取的回应。

整个执行过程再次验证了“人味”,人类炒菜时也难免出现手滑失误,但也几乎是在毫秒内反应再尝试一次。

 

图片来源:OneTwoVLA 

 

这份“人味”还体现在思考反问的自然交互能力,遇到模糊指令时机器人不会中断任务,或者“敷衍了事”,而是像真正伙伴一样,来询问指令是否正确,再进行实时调整。

在开放世界视觉理解能力侧,依托于模型在物体、自然语言等方面的深度理解,机器人面对从未出现过的训练数据,依旧能完成精准识别并执行。高阳表示,这得益于互联网数据的加持,能让机器人理解物理世界的形态表征,而非形态本身,因此才能做到泛化性的提升。简单来说,就是在该模型的加持下,机器人不再是“照本宣科”的学习,而是真正做到“触类旁通”。

支撑上述能力的内核,是团队对于大模型生成设计的把控,OneTwoVLA选择的是单模块自适应,规避了双系统架构间因通信问题造成的延迟,或纯动作VLA执行割裂的问题。将“推理”和“执行”融为一体,兼顾决策质量和执行时效。

 

图片来源:OneTwoVLA 

真实机器人演示+1.6万条合成「具身推理」数据集,又再次拓宽机器人触碰物理世界的疆界,更懂物理世界的空间逻辑和人类自然语言。

透过OneTwoVLA

看具身智能产业化应用升维

具身智能模型能力的有效传达,需依托于高感知度场景。高阳向具身研习社阐释了选择“涮火锅”这一日常场景的深层考量:“其目的在于最大化模型能力的直观可感性。一个贴近生活的场景,能够为大众提供更清晰、更直接的认知窗口,有效展现模型的核心性能。”据了解,该模型所展现的能力,具备向工业自动化、商业服务等多领域高价值场景迁移的普适能力。

深入产业场景需求,“执行流畅性”与“泛化能力”构成了核心诉求的双支柱。前者直接关联操作效率,后者则决定了机器人任务覆盖的广度与适应性。以工业分拣为例,面对新的生产指令,传统“先规划后执行”的机器人需经历需求解析、环境观察、目标物辨识等阶段方可启动作业;而具备“实时决策与执行”能力的模型,则能在同等时间内完成多轮分拣操作,显著提升产线响应速度与吞吐量。

再比如,商业场景的高动态环境,经常出现物体位置偏移或替换。泛化性低的机器人,只能“记得”训练中出现的物体,甚至只能按照原定路线前行,一旦出现路线有障碍物或操作物体更改,则很难完成任务。

大多数结果为:机器人看到路上障碍物,或是被绊倒,或是思考良久后选择新路线;物体变幻后无法识别到新物体,就连将红色瓶子换成同等大小的绿色瓶子,也会成为机器人难以逾越的大山,便放弃执行,有的机器人还会“欺骗”,两手空空的虚假完成任务。

上述商业场景痛点并非假设,而是当下技术转化过程中亟待解决的真实瓶颈。技术能力与实际场景需求之间,仍存在显著的效能鸿沟(GAP),亟需底层技术的突破性进展予以弥合。

实际上,无论是早期具身研习社在展会中看到的案例,还是社交媒体上流传出的训练情景,我们经常能看到,当人类干预几次机器人执行任务后(比如对机器人下指令拿取桌上的杯子后,将杯子换个位置),经常会出现机器人“崩溃”的场景,双臂悬在空中后放下,仿佛在说“我不干了”。

OneTwoVLA加持下,可以实时反问,主动纠错的模型,其价值远超越演示视频的直观呈现。该模型实质性地提升了机器人在复杂、非结构化环境中完成任务的成功率与效率,显著拔高了机器人任务执行效能的实践天花板。

据悉,千寻智能正在调试OneTwoVLA的本体部署,预计会集成在下一代产品中。当OneTwoVLA走向物理世界,进行实际应用,场景终于等来了最懂它的具身大模型。

完成关键跃迁

加速“具身智能生产力时代”到来

当OneTwoVLA论文中出现“高阳”的署名,其突破性技术跃迁便具备了内在逻辑的必然性。

 

图片来源:千寻智能

 

作为UC Berkeley博士,师从Vision泰斗Trevor Darrell,跟随Pieter Abbeel深耕强化学习的科学家,高阳在预训练、监督学习、微调及强化学习等全栈技术环节的深厚积累,使其成为国内稀缺的具身智能全链路技术专家。其研究成果已获Google、Figure AI等国际技术先驱的采纳。

无论是“伯克利归国四子”的业界标识,还是其沉淀的学术与技术成就,均有力佐证了高阳在技术前沿领域的突破性贡献。但高阳依旧秉持的学者特质——低调务实、专注技术内核,这也恰是驱动深度创新的核心基因。

高阳为千寻智能技术路线注入了关键技术视野,在市场非共识期,千寻智能就已押注自研端到端VLA具身大模型,并打造了中国唯一全身高精度力控机器人。时至今日,端到端VLA具身大模型已经成为主流技术路线,承载“具身智能生产力时代”的核心技术引擎。

“他的技术路线短期内可快速落地并积累有效数据,长期来看上限极高,能实现端到端充分泛化以及多本体数据积累。”某业内人士评价道。

从技术发展来看,千寻VLA具身大模型加速演进,从单一任务执行到多个基础任务执行再到高难度长程任务+数十个基础任务执行,这段技术跃迁不过半年的光景。在行业数据卡点层面,千寻智能高校利用互联网+仿真+遥操作+实操等多源数据,进行强化学习和模仿学习,已经具备实现跨对象、任务及场景的充分泛化性的能力。

奔赴在正确技术路径上的千寻智能,也有着相对清晰、更为务实的商业化脉络。让前沿技术走出实验室,成为千行百业的得力助手。随着技术成熟度与商业渗透率的同步提升,未来千寻智能将真正释放具身智能范式重构的价值。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    具身研习社

    记录具身智能浪潮迭代,探寻新质生...

    推荐商品

      举报文章问题

      ×
      • 营销广告
      • 重复、旧闻
      • 格式问题
      • 低俗
      • 标题夸张
      • 与事实不符
      • 疑似抄袭
      • 我有话要说
      确定 取消

      举报评论问题

      ×
      • 淫秽色情
      • 营销广告
      • 恶意攻击谩骂
      • 我要吐槽
      确定 取消

      用户登录×

      请输入用户名/手机/邮箱

      请输入密码