• 发文
  • 评论
  • 微博
  • 空间
  • 微信

基于LiDAR的对象检测中的课程化对象操作

磐创AI 2023-09-21 10:30 发文

论文标题:Curricular Object Manipulation in LiDAR-based Object Detection

代码:https://github.com/ZZY816/COM

导读

本文探讨了LiDAR传感器在自动驾驶等安全关键应用中的3D物体检测任务,并引入了一种创新的训练框架,被称为"curricular object manipulation (COM)",以解决LiDAR数据的不均匀性、无序性和稀疏性等挑战。COM框架是首次在传统的LiDAR-based 3D物体检测任务中探索课程学习(curriculum learning)潜力的工作。大量的实验和消融研究揭示了提出的框架的优越性和通用性。

本文贡献相关工作

基于 LiDAR 的 3D 对象检测

Range view based solutions:基于2D范围视图的紧凑表示形式,具有高计算效率,但通常由于2D-3D维度差异而具有较差的检测性能。这些方法的计算效率高,但通常在检测性能上表现不佳。

point-based detectors:这些方法直接从原始点云中提取特征,因此能够实现令人满意的性能,但通常由于在3D欧几里得空间中进行半径搜索或最近邻查询而产生较高的计算成本。这些方法的性能较好,但计算成本较高。

voxel-based detectors:首先将不均匀的点云转换为规则的2D柱状体或3D体素,并使用卷积进行后续的高效处理。这种方法的代表包括VoxelNet和PointPillars等,它们在效率和效用之间取得了很好的平衡,因此受到了研究社区的广泛关注。在本文的实验中,作者主要关注了基于体素的方法。

点云中的数据增强

由于大规模标注点云数据的成本较高,公共LiDAR数据集通常比图像数据集要小得多,例如KITTI数据集中有15K帧,而MSCOCO数据集中有328K张图像。

因此,对于LiDAR物体检测模型的性能和泛化能力来说,有效的数据增强策略至关重要。除了简单的几何变形,例如随机旋转、随机翻转和平移之外,LiDAR任务通常使用地面真实标签的增强策略来减轻点云中的稀疏问题。

在训练之前,将带有相应点云的地面真实对象首先收集到数据库中。在训练过程中,从数据库中随机选择的附加地面真实对象被连接到当前训练点云中以补充监督。这种策略被称为GT-Aug,在当前文献和开源工具中广泛使用。因此,本文的实验主要集中在最有效的GT-Aug策略上。

Curriculum Learning

课程学习通过逐渐引入更难的数据样本来改善模型性能和泛化能力。虽然课程学习在某些分类任务中已经证明了其有效性,但在目标检测任务中,尤其是在LiDAR 3D检测中,其应用仍然相对未开发。一些先前工作提出了不同的方法来衡量对象的难度,如梯度更新的难度值或使用损失值作为难度指标。本文采用了损失值作为难度的指标,并提出了一种课程学习策略,用于点云中的GT-Aug数据增强。

本文方法

所提出的COM框架主要由COMAug和COMLoss组成。

COMLoss

难度标准(Difficulty Criterion):COMLoss使用预测的分类分数作为衡量对象难度的指标。这些分类分数通常是模型对每个感兴趣对象的置信度估计。

尽管使用分类分数作为难度标准是合理的,但作者指出,分类分数分布与对象难度分布之间仍然存在统计差异。这意味着,分类分数不能完全准确地反映对象的难度。因此,为了缓解这些差异,作者引入了自适应阈值τ。

COMLoss引入了一个自适应阈值τ,自适应阈值τ的目的是缓解分类分数分布与对象难度分布之间的统计差异,自适应阈值τ的计算使用了指数移动平均的方法。τ的初始值为0,通过以下公式进行更新::

难度自适应损失(Difficulty-adaptive Loss):COMLoss的核心思想是使用自适应权重函数w,根据对象的相对难度s˜来动态调整训练中的焦点。这个权重函数具有Sigmoid形状,它的形状由参数β控制,并且随着训练的进行而变化。在训练的早期阶段,易处理的对象会被强调,而随着训练的进行,更难处理的对象会吸引更多的注意力。

自适应加权函数w:

我们注意到公式(4)中引入了一个参数tr,称为临界点,它决定了何时从强调易样本转向强调难样本。在时期t < tr之前,易样本受到强调,而在时期t > tr之后,难样本受到强调。这个参数的选择对COMLoss的性能影响很大。

给定加权函数w,所提出的COMLoss公式为:

COMAug

对象聚类(Object Clustering):首先,对地面真实对象进行聚类,将具有相似属性的对象分配到同一组中。聚类因素包括对象与LiDAR传感器的距离、边界框的大小、边界框方向与盒子中心方位之间的相对角度以及观测区域占整个边界框的比率。图4显示了我们实验的聚类结果的可视化

组级别难度分数更新(Group-level Score Update):将聚类后的地面真实对象分成多个组,每个组都有一个难度分数。在每个训练时期结束时,将每个组的难度分数更新为该时期内所有样本的平均分数,以减少难度分数的过时和不稳定性。

难度自适应采样(Difficulty-adaptive Sampling):设计了一个难度自适应的采样器,该采样器根据对象的难度分数和训练阶段自适应地选择对象进行数据增强。采样概率根据对象的难度分数和µt值(µt在训练阶段中变化,公式(6))进行自适应调整,以确保更难的对象具有更高的被选择概率:

采样器还考虑了组的大小以解决对象数量不平衡的问题,最后,选择组g的概率计算为:

实验实验结果

作者所提出的COM框架在三种流行的LiDAR-based 3D物体检测器(SECOND、PointPillars和CenterPoint)上的有效性和通用性,表1和表2展示了在行人和车辆类别上的结果。

COMLoss的参数敏感性:

COMAug 根据距离(Dist)、尺寸(Size)、角度(Angle)和占用比率(Occup)等四个因素对对象进行聚类的效果:

COMAug 采样概率的可视化:

结论

本文探讨了在LiDAR-based物体检测中应用课程学习的潜力,提出了一种新颖 COM 框架。作者关注了检测器中的损失设计和GT-Aug中的采样策略,并相应引入了COMLoss和COMAug模块。大规模基准测试以及消融研究验证了我们方法的有效性。

局限性

我们的难度标准仅依赖于分类损失,而忽略了回归难度以提高效率。此外,基于损失的标准受训练噪声和滞后效应的影响,因此可能无法精确地反映困难程度。设计更准确的标准是一个有前景的方向。

我们根据四个经验验证的启发式方法将对象分组。对于更合适的分组策略,还需要更多的努力。

我们将工作局限在具有GT-Aug的LiDAR-based物体检测器中。这项工作可以扩展到其他LiDAR相关任务,如多模态3D物体检测和点云分割等。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    磐创AI

    人工智能前沿技术分享。...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码