谷歌提出Context R-CNN, 利用时域上下文信息的增强目标检测系统

From: Google 编译:T.R

生态问题刻不容缓的今天，有效的生态系统监测能够帮助研究人员更好地提出环境保护措施。静态捕捉相机就是放置在野外环境中的最具代表性的一种监测传感器。然而，对于广泛应用的静态相机来说，自动地分析处理还面临着一系列的挑战。
由于静态相机的拍摄场景固定，拍摄图像中的背景异常重复，因此没有足够充分的数据多样性，机器学习模型将倾向于学习背景，使其在新场景下缺乏足够的泛化性。为了解决这一问题，来自谷歌的研究人员提出了一种基于时域上下文的互补方法Context R-CNN，提升了目标检测模型在全新相机设置场景下的泛化性。

有效的生态系统监测将帮助研究人员更好的理解全球生态系统的动力学行为、物种多样性、量化人类活动和气候变化的影响，并提出有效的保护措施。为了获取高质量的数据提高监测效率，生态学家耗费了大量的努力在野外环境中放置检测传感器，而静态捕捉相机就是其中最具代表性的一种。

随着传感器监测网络的逐渐发展壮大，对于全球范围内生物多样性数据的手工分析变成了全球实时生态精确监测的瓶颈所在。虽然有多种基于机器学习的自动化分析方法，但对于广泛应用的静态相机来说，自动地分析处理还面临着一系列的挑战，包括功耗和存储限制、采样率较低、运动触发造成的非规则拍摄结果等。

为了有效处理野外静态相机的拍摄结果，计算机视觉模型必须对各种情形下的目标具有足够的鲁棒性，包括偏离中心、离焦、低光照、尺度变化剧烈等等。此外静态相机最大的不同在于它的拍摄场景固定，这会使拍摄图像中的背景异常重复。没有足够充分的数据多样性，机器学习模型将倾向于学习背景，使其在新场景下缺乏足够的泛化性。

机器学习和生态学界的研究人员已经携手完成了像LILA BC 和 Wildlife Insights 等大规模的专家标注数据集，这些数据来自于多个研究团队在不同场景下的相机拍摄结果以提升数据的多样性。但数据的积攒需要大量人力物力并且进展缓慢，同时在顾及多样性、世界范围内代表性数据和物种分类的要求下变得异常繁杂。

这张清晨浓雾中的野外图像几乎什么都看不清，为自动分析带来了十分巨大的挑战。

为了解决这一问题，来自谷歌的研究人员提出了一种基于时域上下文的互补方法Context R-CNN，提升了目标检测模型在全新相机设置场景下的泛化性。新型的目标检测架构通过提取每个相机在时间维度上的上下文线索来改善新场景下的目标识别效果，而无需额外的来自多个相机的训练数据。在面对复杂图像时，上下文R-CNN方法可以从同一相机从长达一个月的上下文信息中回溯出最为相关的目标并帮助算法进行识别。

这种方法超过了仅仅使用单帧图像的FasterR-CNN方法，在多个生态环境图像检测领域内都具有明显的优势。研究人员已将模型整合到TF Object Detection API中，为相关研究人员提供更为简化的训练和部署。

上图中显示了上下文信息(长达一个月)是如何帮助专家确定模糊场景中的动物的。上下文中目标形状、尺寸、每天固定的食草时间帮助算法确定这是角马。
上下文R-CNN模型

上下文R-CNN主要利用静态相机拍摄图像序列间的高度相关性，在无需额外人工标注数据的情况下提升算法在复杂情况下的性能，同时改善在新的相机设置下的泛化性。与Faster R-CNN类似，它也采用了两阶段目标检测架构。

上图显示了上下文R-CNN的顶层架构，显示了检测模型与长期上下文信息如何有效系统提升性能。

为了抽取某一相机的上下文信息，研究人员首先利用参数固定的特征抽取器从较大的时间跨度中构建出上下文存储空间(下图中M)；随后每幅图像在对应上下文信息聚合的帮助下，上下文R-CNN将会更好地在复杂情况下对目标进行检测（包括低光、浓雾、模糊等场景）。这种聚合利用attention方式实现，它对静态相机中出现的稀疏和非规则采样具有较好的鲁棒性。

第一阶段的Faster R-CNN将提出潜在目标，而第二阶段将对每个候选目标进行分类。在Context R-CNN中针对第一阶段的候选目标，使用基于相似性的注意力机制来确定当前目标与记忆池中特征的相关性。随后利用相关性权重加权记忆池中的特征来构建针对这一目标的上下文特征，并将其添加到原始的目标特征后，送入第二阶段的Faster R-CNN中进行最终的分类。

Context R-CNN将近一个月的上下文信息用于帮助分类当前目标。绿色数字显示了每个记忆特征与当前目标的注意力相关性权重。
实验结果

研究人员在多样性区域的动物捕获相机数据集Snapshot Serengeti (SS) 和 Caltech Camera Traps (CCT)上测试了Context R-CNN的性能。

与左侧 Faster R-CNN 相比, Context R-CNN 可以在更为困难环境中捕捉到被树枝遮挡的大象、低光照下的羚羊和位于图像边缘的猴子。

下表显示了模型的提升，在SS和CCT上mAP分别实现了47.5%和34.3%的相对提升。同时研究人员发现随着时间上下文信息跨度的增加，模型的性能有着正相关的提升。

与单帧Faster R-CNN相比本文方法的mAP和AR值都有了明显地提升。

目前研究人员正在努力将Context R-CNN应用到Wildlife Insights监测平台中去，基于野外相机网络实现便捷的大规模、全球生态系统监测。

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

谷歌提出Context R-CNN, 利用时域上下文信息的增强目标检测系统

相关阅读

将门创投

将门创投

举报文章问题

举报评论问题

用户登录×