Octi让智能手机具备识别场景纵深、追踪人体运动的能力

尽管深度摄像头正在逐渐出现在许多手机手机品牌的高端机型上，但是单目、RGB摄像头仍然是占据绝大多数设备的主流。这也就导致了现有的AR技术仍然是基于平面，很难去获取环境的纵深。另外设备也很难捕捉并理解人体以及动作，无法表现更好的增强现实效果。

普及具备深度获取能力的摄像头仍需时日，而人们对于更好的AR体验的追求已经等不及了，如何在不添加传感器的条件下，让单目视觉设备具备对场景纵深的理解能力，对人物动作的追踪能力，成为增强现实视频公司Octi攻克的重点。

在iOS端，Octi推出了一款名为“Octi”的APP，已经可以在App Store下载体验

这款应用展示了他们的动态抠图技术

识别动态的尬舞人体，选择特效，例如变成透明人

将从别处抠下来的动态跳舞妹子放进同一个场景中

点击边框调出视频工具条

和时下流行的短视频结合起来似乎会有奇妙的效果。

在Octi的官网上能看到技术的简要说明。

首先是移动实例分割。

所谓实例分割，就是机器自动从图像中用目标检测方法框出不同实例，再用语义分割方法在不同实例区域内进行逐像素标记。换言之，就是当场景中出现很多人的情况下，实例分割能够区分出那些像素属于第一个人，哪些属于第二个人。

而Octi专有的人员实例分割方法能够实现在移动设备（手机）上以高帧率运行。

为了让机器具备理解人体及其运动的能力，Octi建立了成熟的机器学习和计算机视觉技术。

首先，它扫描人体，检测关键点比如眼睛、鼻子、臀部肘部等。

然后利用这些点来构建骨骼模型

Octi独特的3D重建技术结合使用神经网络和运动学模型，比同类方法具有更高的精度。

使用人的姿势、分割和一系列专有运动模型的先验组合，Octi在移动端实现了人体的体积重建。

看来Octi采用的便是被丸子酱点名批评过的，通过在模拟出的骨骼模型上套上一个粗糙的人体外壳完成的人体3D模型重建（Facebook最新开源，普通RGB相机即可实时映射3D模型）考虑到在手机端各方条件都受限制，不能强求更多，实用就好。

为了让单目RGB相机识别环境中的相对深度

Octi利用深度估计估计模型来区分图像的前景和背景（即物体的远近），这种能力加强了设备对于场景的语义理解，并且允许我们在不考虑背景噪声的情况下提取人的详细动作。

Octi日前确定了同NFL球员协会（美国国家橄榄球联盟）确定了投资战略和合作关系，球迷粉丝们可以通过Octi提供的技术同超过2000名橄榄球运动员进行视频形象互动，就像我们在文章开头看到的那样。

动作捕捉似乎是个和我们普罗大众相距甚远的技术条目，Octi此举却告诉了我们，我们可以利用这项技术做很多有趣的事情，而且仅需要一个配备单目摄像头的智能手机，就可以从场景中提取清晰人体动作，这将给AR技术的普及推广进一步推波助澜。

Octi不久前宣布获得750万美元投资，有了更多资金，Octi将继续完善其计算机视觉科学家、机器学习工程师的研究人员团队，或许能在技术上更进一步。

相关阅读