论文/图神经网络论文解读:Event-Stream Representation for Human Gaits Identification Using Deep Neural Networks

论文/图神经网络论文解读:Event-Stream Representation for Human Gaits Identification Using Deep Neural Networks

Title

Event-Stream Representation for Human Gaits Identification Using Deep Neural Networks

Summary

使用 event cameras 进行图像识别、活动识别相比 RGB 摄像机有很多优势。 event cameras 低功耗、计算资源少,采集的数据采样率高,采集速率是毫秒级别的,可以避免运动模糊和快门问题,动态范围更广,可以适应复杂的光线环境。但是 event cameras 的数据包含很多噪声,并且是反应光强度变化的异步事件流,不能直接使用传统的方法,因为传统的深度学习方法是在二维码平面提取特征的。在视觉任务中提高 event cameras 性能的关键是找到事件流的适当表示,并且应用深度学习方法来学习事件流中包含的时空信息。在这篇论文中,探索了图表示和帧表示两种表示方法,并分别使用了 GCN 和 CNN 两种方法,分别对应 EV-Gait-3DGraph 和 EV-Gait-IMG。为了对比这两种方法的性能,收集了两个基于事件流的数据集,一个是真实世界采集的数据,另一个是使用 event cameras 录制 CASIA-B 数据集得到的。结果表明,当数据量足够大时,EV-Gait-3DGraph 的效果最好;但是当数据量不足时,EV-Gait-IMG 性能更好,能够更快收敛。

SYSTEM OVERVIEW

  1. 基于图的事件流表示是由 Bin 等人首次提出的,从事件流的切片中构造 2D 图表示,并使用基于图的卷积进行特征提取来解决对象识别问题。后来有研究把这种方法应用到动作识别任务中,从事件流的一系列切片构造称为二维图表示,将基于图形的卷积应用于构造出来的 2D 图,用于提取空间特征,最后在这个基础上使用 3DCNN 提取时间特征。

  2. 在本论文提出的 EV-Gait-Graph3D 算法流程如下:

    1. 一段 3 到 4 秒的事件流切片包含几万到几十万个事件。为了减少计算复杂度,首先使用 Box-Grid 滤波算法进行下采样,大大减少事件的数量,同时可以保留事件流中的时空特征。根据事件流的局部密度创建M个非均匀时空 box,并从 box 中随机选取一个事件作为代表。每个框中的最大事件数(maxNumeEvents)用于控制下采样率。

    2. 经过下采样之后剩余的事件点看作是图中的顶点,然后根据预先定义的邻域半径计算事件之间的关联度,构造事件流的三维图表示。如果两个点 $ v_{i}=(x_{i}, y_{i}, t_{i}, p_{i}) $ 和 $ v_{j}=(x_{j}, y_{j}, t_{j}, p_{j}) $ 之间的距离小于 R,则这两点之间有相连的边,距离计算公式如下:

      $ <R $。

      其中 $  $ 用于控制是时间和空间的对距离的影响比例。图的连通表示为 G=(V, E, P),其中 V 表示顶点,E 表示边,P表示顶点上的光线强度变化数值。最后得到图的邻接矩阵 A,如果点 $ v_{i} $ 和 $ v_{j} $ 之间有边,那么矩阵中 $ A_{i,j} $ 的值为1,否则为0,对角线上的值全为 1,表示点自己有边。

    3. 最后把处理的上述特征输入到 GCN 中训练模型。GCN 模型包括几个关键模块:GMM 图卷积、图残差网络、图聚类和最大池化。

  3. GCN 模型包括几个关键模块:GMM 图卷积、图残差网络、图聚类和最大池化。

    1. 在相邻节点之间聚集特征,以节点 $ v_{i} $ 为中心的卷积可以表示为:$ (g f)(i)=_{j (i)} w(u(i, j)) f(j) $。其中 $ g $ 表示卷积操作, $ f(i) $ 和 $ f(j) $ 分别表示点 $ i $ 和 $ j $ 的特征向量,$ w(u(i,j))$ 表示用于计算点 \(j\) 的相邻点的特征向量卷积核。

      本文采用 GMM 图卷积,这是一种空间卷积,公式如下:

      $ w(u)={k=1}^{K} (-(u-{k})^{} {k}^{-1}(u-{k})) $

      其中 $ {k}^{-1} $ 是第 \(k\) 个高斯模型的协方差矩阵,$ {k} $ 是第 \(k\) 个高斯模型的均值向量

      伪坐标的选择是图卷积的另一个重要设计因素。本文利用三维 \((x,y,t)\) 中的相对笛卡尔坐标估计邻域间的相对位置,通过GMM卷积从三维图形中提取空间和时间信息。

    2. 图残差网络可以在网络很深时解决梯度消失问题,与 GMM 图卷积类似,区别在于卷积核的选择以及卷积核的大小为 1。

    3. 图聚类和最大池化可以降低网络的复杂度,缓解网络深度过拟合的问题。最大池化将同一簇中节点的特征向量集合起来形成簇,将时空空间均匀地划分成三维网格,每个维度的簇大小为d,也就是池大小。然后从簇中的节点提取特征向量的最大值,作为新的特征输入下一层

  4. EV-Gait-IMG 方法是将时间流转换为图像帧,然后使用 CNN 去训练模型,没用到图卷积。转换之后的图像包括 4 个 channel,前两个通道分别容纳每个像素处的正或负事件的计数。其他两个通道保持描述时间特性的比率,像素 \((i,j)\) 处的比值 \(r_{i,j}\) 定义为:

    $ r_{i, j}= $

    其中 \(t_{i,j}\) 表示像素 \((i,j)\) 处最后事件发生的时间戳, \(t_{begin}\)\(t_{end}\) 分别表示第一个事件和最后一个事件发生的时间戳。这些比率可以估计不同位置感兴趣的像素的生命周期。EV-Gait-IMG 模型中包括带有残差网络的卷积用语提取特征和 Softmax 用于分类。

Evaluation

  1. DVS128-Gait 数据集包括 20 个人,进行两次数据采集,前后相隔一周,每人每次采集100条数据。
  2. 首先对 EV-Gait-3DGraph 方法进行参数调优,使用控制变量法。为了减少随机性,每个参数准确率使用 30 次训练和测试的平均准确率。实验包括
    1. MaxNumEvents:这个参数是使用 Box-Grid 方法滤波时每个簇的最大事件数(maxNumeEvents),决定了对事件流进行下采样时的压缩比例。随着 MaxNumEvents 从 80 减少到 40,准确率先上升,这是因为被保留下来的事件点增加,更多的信息背保留下来。之后继续减少 MaxNumEvents,准确率反而下降,这是因为被保留下来的数据变多,数据的复杂度成为了主要问题,我猜测也有一部分原因是因为带有太多的噪音。
    2. neighboring range:这个参数是计算点之间的连通性时用的 R,如果两点之间的距离 小于 R,则这两点连通,否则不连通。当 R 从 3 增加到 5 时,准确率上升,这因为是苏辙 R 变大,点之间可以生成更多的边,可以更有效地提取局部特征。当 R 继续增大时,准确率反而下降,这是由于数据的复杂度也变大,成为了主要问题,会损害模型的学习。
    3. last pooling size:最后一个池化层的大小对模型准确率影响很大。虽然 pooling size = 128 时平均准确率最高,但是30次实验的结果不稳定,因为池化层越大,就会丢失更多局部细节,可能会影响结果,因此把 pooling size 设置为 64。
    4. convolution kernel size 和 Graph-ResNet:加上Graph-ResNet 可以提高模型准确率,并且在 kernel size = 5 时,模型准确率最高
  3. 接下来对 EV-Gait-IMG 方法进行参数调优,使用控制变量法。为了减少随机性,每个参数准确率使用 30 次训练和测试的平均准确率。实验包括
    1. the setup of the input representation:在上面我们将事件流转换为图像,有 4 个 channel。我们去掉一些 channel,比较了 4 种方法:All Channels(使用 4 个 channel)、Counts Only(只保留两个计算事件数量的 channel)、Time Only(只保留了时间信息的两个 channel)、NoPolarity(使用 4 个 channel,但是不保留每个事件的 polarity 信息)。其中第二种方法Counts Only的准确率最高。
    2. the use of ResBlocks:使用残差网络可以提高 1.5% 的准确率。
    3. size of the convolution kernels:残差网络的卷积核大小影响很小。
  4. 和其他已有的方法进行比较,包括
    1. 2DGraph-3DCNN:首先将事件流切分成很多片段,每个片段构建一个二维图,使用 B-spline kernel 提取空间特征,再转为标准的 grid,使用 3DCNN 来对所有 grid 提取时间特征。
    2. LSTM-CNN:首先将事件流切分成很多片段,每个片段转换为帧,使用 CNN 提取每一帧的特征,使用 LSTM 对帧提取时间特征。
    3. 该论文的 EV-Gait -3DGraph 算法取得了最高的准确率, 基于帧的方法会有 misalignment 和背景带来的噪音问题,而基于图的方法可以直接关注对象本身,减轻 misalignment 和背景带来的噪音问题。
    4. 当数据量足够大时,EV-Gait-3DGraph 的效果最好;但是当数据量不足时,EV-Gait-IMG 性能更好,能够更快收敛。
  5. 和基于 RGB 图像的方法进行对比。在屏幕上播放 CASIA-B 数据集,并使用 DVS128 传感器录制,得到 EV-CASIA-B 数据集。和 3D-CNEnsemble-CNN 方法进行了对比,结果比不上,这是因为 CASIA-B 数据集的帧率只有 25 FPS,而且分辨率只有 320 X 240,因此食用 DVS128 录制,会引入很多噪音,并且丢失很多信息。 但是当目标行走方向与摄像机光轴垂直时,EV-Gait-IMG 的准确率依然能够超过 3D-CNEnsemble-CNN,因为这个角度的图像保留了大部分人物的步伐动作姿态,而其他角度则会丢失更多步伐动作相关的信息。

Conclusion

  • 论文考虑异步事件流的两种表示,即3D图和事件图像。这是第一个使用三维图形来表示事件流的研究,而且三维图形表示可以更好地保留事件流的时空特性。
  • 在上面两种表示方法的基础上,设计了两种基于事件的步态识别方法 EV-Gait-3DGraph 和 EV-Gait-IMG,分别用于三维图形的基于图的卷积网络(GCNs)和基于图像的卷积神经网络(CNNs)。这两种方法都能够有效地从步态产生的异步和稀疏事件数据中识别身份。
  • 收集了两个基于 event cameras 的步态数据集,一个是自己采集的真实数据(DVS128),另一个是使用 event cameras 录制 RGB 数据集的回放得到的(EV-CASIA-B)。在 DVS128 数据集中,每名受试者有 100 个训练样本,所提出的 EV-Gait-3DGraph 和 EV-Gait-IMG 分别能达到 94.5% 和 87.3% 的身份信息,基于图表示的 EV-Gait-3DGraph 准确更高;当每个受试者训练样本数量较少时,基于帧的 EV-Gait-IMG 的准确率更高。对 EV-CASIA-B 数据集的评估表明,EV-CASIA-B 与基于RGB的方法在准确率上比较接近。

评论