论文/EV-SegNet Semantic Segmentation for Event-based Cameras-笔记

论文/EV-SegNet Semantic Segmentation for Event-based Cameras-笔记

Title

EV-SegNet: Semantic Segmentation for Event-based Cameras

Summary

在 DVS 数据集上研究语义分割有两个挑战:

  1. 数据的还没有一种统一的表示形式来输入到 CNN 中
  2. 缺少有标注的数据集。

这篇论文对比了现有的各种表示形式在语义分割任务上的表示,并提出了一种新的表示方法,其性能优于现有的表示方法。而且在 DDD17 生成了近似的标签。

SYSTEM OVERVIEW

  1. 现有的语义分割网络大部分都是基于 encoder-decoder CNN 网络结构,包括 MaskRCNN、DeepLabv3+ 和 Xception 等。向网络中输入图像额外的信息可以提升准确率,比如深度信息和雷达信息。在医学图像领域的语义分割也使用了基于 CNN 的网络来处理 MRI 和 CT 的图像数据。本论文使用了基于 Xception 结构的网络,在 event data 上取得了和 RGB 数据接近的效果。

  2. 最常用的表示方式是存储一段时间内在每个位置 \((x_{i}, y_{i})\) 发生的 event,下面介绍各种表示方式。

    1. 有一种方法是在在两个 channel 上分别存储正事件和负事件,类似于二维直方图,表达式如下:

      \(\operatorname{Hist}(x, y, p)=\sum_{i=1, t_{i} \in W}^{N} \delta\left(x_{i}, x\right) \delta\left(y_{i}, y\right) \delta\left(p_{i}, p\right)\)

      其中 \(\delta\) 是 Kronecker delta function,\(W\) 是时间窗口,N 表示这个时间窗口内的事件数量。该表达式表示如果在位置 \((x_{i}, y_{i})\) 上发生了事件 \(p\),则 \(\operatorname{Hist}(x, y, p)\) = 1,否则 \(\operatorname{Hist}(x, y, p)\) = 0

    2. 第二种是 time surfacces,也是 2 个 channel,对应正和负的 polarity。这种方法存储 W 时间窗口内每个像素最近的 event 或者整个时间窗口内的 event。

    3. 第 3 种方法有 4 个 channel,前 2 个 channel 是 time surfacces,后 2 个 channel 存储 event 对应的经过标准化的时间戳,如下:\(\operatorname{Recent}(x, y, p)=\max _{t_{i} \in W} t_{i} \delta\left(x_{i}, x\right) \delta\left(y_{i}, y\right) \delta\left(p_{i}, p\right)\)

    4. 该论文还提出了自己的一种表示方式,包括 6 个 channel。前 2 个 channel 存储 Hist,后 4 个 channel 存储每个像素位置发生的所有 event 的时间戳的均值和方差。其中均值的表达式为:\(M(x, y, p)=\frac{1}{\operatorname{Hist}(x, y, p)} \sum_{i=1, t_{i} \in W}^{N} t_{i} \delta\left(x_{i}, x\right) \delta\left(y_{i}, y\right) \delta\left(p_{i}, p\right)\);方差的表达式为:\(S(x, y, p)=\sqrt{\frac{\sum_{i=1, t_{i} \in W}^{N}\left(t_{i} \delta\left(x_{i}, x\right) \delta\left(y_{i}, y\right) \delta\left(p_{i}, p\right)-\operatorname{Mean}(x, y, p)\right)^{2}}{\operatorname{Hist}(x, y, p)-1}}\)

      因此总共有 6 个 channel:\(\operatorname{Hist}(x, y,+1)\)\(\operatorname{Hist}(x, y,-1)\)\(M(x, y,+1)\)\(M(x, y,-1)\)\(S(x, y,+1)\)\(S(x, y,-1)\)

Evaluation

  1. 网络的 encoder 使用 Xception,构建一个轻量的 decoder, 使用 skip connections 来减轻梯度消失,损失函数为 \(\mathcal{L}=-\frac{1}{N} \sum_{j=1}^{N} \sum_{c=1}^{M} y_{c, j} \ln \left(\hat{y}_{c, j}\right)\) ,其中 \(N\) 表示像素的数量,M 表示类别的数量,\(\hat{y}_{c, j}\) 表示像素 \(j\) 属于类别 \(c\) 的概率。
  2. 数据集使用 DDD17 数据集中的部分数据。这个数据集提供驾驶中的 40 种场景(序列),包括灰度图数据和 event 数据,但是没有提供语义分割的标注。
    1. 第一步是使用训练好的语义分割网络在灰度图像上生成标签。首先在 Cityscapes 灰度图片数据集上训练语义分割网络,在 Cityscapes 的验证集上取得了 83% 的 MIoU,虽然里最好的 92% 的 MIoU 还有差距,但是足够为该论文的数据生成 label。然后使用这个网络在 DDD17 的部分数据上进行分割作为 label。最后把图片中底部的部分去掉,因为这个数据集中图片底部一般都是汽车仪表盘,引入了噪声。
    2. 上面说到作者只从 DDD17 数据集选取了部分数据。由于 Cityscapes 数据是城市图片,因此只从 DDD17 数据中选取背景为城市的图片。并且考虑到灰度图像的分割正确性,只有对比度高的图片才会有比较好的预测结果,因此选取那些在白天中拍摄且没有过度曝光的图片。最终选取了 6 个 sequences,并从中再选取部分数据出来。其中 5 个 sequences 的数据作为训练集,剩下 1 个 sequence 的数据作为验证集。
    3. 除了天空和建筑物这两种类别,数据的 label 种类和 Cityscapes 数据集的 label 种类一样。因为 DDD17 数据上天空和建筑物和 Cityscapes 数据集的 domain 不太一样,训练出来的网络在 DDD17 数据上对天空和建筑物的预测效果不好。
  3. 在衡量指标上使用 Accuracy 和 Mean Intersection over Union (MIoU)。Accuracy 的表达式如下:Accuracy \((y, \hat{y})=\frac{1}{N} \sum_{i=1}^{N} \delta\left(y_{i}, \hat{y}_{i}\right)\),MIoU 的表达式如下: \(\operatorname{MIoU}(y, \hat{y})=\frac{1}{C} \sum_{j=1}^{C} \frac{\sum_{i=1}^{N} \delta\left(y_{i, c}, 1\right) \delta\left(y_{i, c}, \hat{y}_{i, c}\right)}{\sum_{i=1}^{N} \max \left(1, \delta\left(y_{i, c}, 1\right)+\delta\left(\hat{y}_{i, c}, 1\right)\right)}\)。对数据做了裁剪、旋转(-15◦ , 15◦) 和水平翻转等数据增强,时间窗口使用 50ms。
  4. 我们使用了同一个模型,但是在输入的表示方式上使用 3 种不同的方式,Basic dense encoding、Temporal dense encoding 和该论文提出的 6 个 channel 的表示方式,其中本论文提出的表示方式在 Accuracy 和 MIoU 上始终优于其他表示方式。
  5. 作者还比较了不同的时间窗口对结果的影响,不同时长的时间窗口可以表示同一物体运动的不同速度。这一点很重要,因为在实际场景种,物体运动的速度不尽相同。结果表示模型的 Accuracy 和 MIoU 轻微下降。这有两个原因:时间戳已经标准化了,训练数据中本来就包含了物体运动的不同速度。
  6. 和传统的图像语义分割效果进行了对比,总体来说传统的图像语义分割效果更好。但是使用传统图像的方法在分割小物体和极端光线 (比如太黑或者太亮) 环境下的物体时不太准确,使用 event 数据的方法主要短处在分割静止的物体时不太准确,但是可以适应于极端光线环境,分割比较暗环境下的运动物体。因此把传统的灰度图像分割和基于 event 数据的图像分割结合起来,可以得到更高的准确率和 MIoU。

Conclusion

  1. 这篇文章是第一个使用 DVS 数据集进行语义分割的研究工作。构建了基于 Xception CNN 的网络。并且由于没有可用的 benchmark,该论文还根据 DDD17 数据集构建了近似的语义分割标签。对我的启发是:可以考虑 DVS 数据集上还没有被研究的细分领域。
  2. 比较了不同的数据表示方式在语义分割上的效果,并提出了一种新的表示方法,其性能优于其他两种表示方法。最后和传统的图像语义分割进行了对比分析优缺点,并把两者结合起来,取得了更好的效果。
  3. future work 可以考虑如何生成更加精确的 label,包括使用 alternative domain adaptation approaches 或者 event camera simulators 来生成 label。

评论