用于视频动作识别的蒸馏3-D(D3D)网络
[摘要] 谷歌、密歇根大学和普林斯顿大学的一组研究人员最近开发了一种新的视频动作识别方法。视频动作识别需要识别视频片段中执行的特定动作,例如打开车门、关闭车门等。
蒸馏3D网络(D3D)。研究人员训练了一个3D CNN来识别RGB视频的动作,同时从识别光流序列动作的网络中提取知识。在推理期间,仅使用D3D。
谷歌、密歇根大学和普林斯顿大学的一组研究人员最近开发了一种新的视频动作识别方法。视频动作识别需要识别视频片段中执行的特定动作,例如打开车门、关闭车门等。
大多数最先进的视频动作识别工具采用两个神经网络的集合:空间流和时间流。在这些方法中,训练一个神经网络以基于外观(即“空间流”)识别常规图像流中的动作,并且训练第二网络识别运动数据流中的动作(即,'时间流)。 “)。然后将这两个网络获得的结果组合起来以实现视频动作识别。
谷歌人工智能研究人员David Ross对TechxPlore说:“多年来,我们一直致力于教计算机识别视频中的人类和非人类行为。”许多顶级的执行方法,包括我们自己的方法,都依赖于“双流”方法的变体。虽然这种方法的经验结果很好,但我们发现它在理论上并不令人满意。难道网络不应该学习直接从规则图像流中提取所需的运动信息吗?我们的目标是研究改进这一点的方法,以便用一个直接从数据中学习的单一网络取代两个流。”
该网络用于预测来自3D CNN特征的光流。研究人员将解码器应用于3D CNN中的隐藏层(此处在第3A层描述)。该图显示了I3D / S3D-G的结构,其中蓝色框表示卷积(虚线)或初始块(实线),灰色框表示池化块。图层名称与Inception中使用的图层名称相同。
在最近的研究中,空间和时间流都包括3-D 卷积神经网络(CNN),其在尝试分类之前将时空滤波器应用于视频剪辑。从理论上讲,这些应用的时间滤波器应该允许空间流学习运动表示,因此时间流应该是不必要的。
然而,在实践中,当包括完全独立的时间流时,视频动作识别工具的性能得到改善。这表明单独的空间流不能检测由时间流捕获的一些信号。
为了进一步研究这一观察结果,Ross和他的同事研究了用于视频动作识别的3-D CNN的空间流是否缺乏运动表示。随后,他们证明了这些运动表示可以使用蒸馏来改进,蒸馏是一种将整体中的知识压缩成单个模型的技术。
三个解码器用于预测光流。PWC解码器类似于PWC-net的光流预测网络。没有解码器使用时间滤波器。
“首先,我们训练'教师'网络来识别动作输入的动作,”Ross解释说。“然后,我们培养了第二个”学生“网络,它只提供常规图像流,具有双重目标:做好动作识别任务并模仿教师网络的输出。基本上,学生网络学习如何比老师更好地基于外观和动作进行识别,以及更大,更笨重的双流模型。“
最近,许多研究还测试了视频动作识别的替代方法,其需要训练具有两个目标的单个网络:在动作识别任务中表现良好,并且直接预测在动作识别任务中的低级运动信号(即光流)。视频。研究人员发现他们的蒸馏方法优于这种方法。这表明,对于网络而言,识别视频中的低级光流不如重现教师网络已经学习的关于从运动中识别动作的高级知识那么重要。
“我们已经证明,完全有可能训练一个单流神经网络,其性能与双流网络一样,”Ross说。“当提供新的'测试'视频时,只需要上述学生网络来识别视频中的动作。”
使用在层3A处应用的PWC解码器由S3DG和D3D(没有微调)产生的光流的示例。每个像素的颜色和饱和度分别对应于运动的角度和大小。TV-L1光流以28×28px显示,即解码器的输出分辨率。
基本上,Ross及其同事进行的研究表明,使用大约1/3的计算可以获得当前最先进的视频动作识别方法的性能。这样可以更轻松地在计算受限的设备上运行这些模型,例如智能手机,以及更大规模(例如,识别YouTube视频中的“扣篮”等行为)。
“我们的工作表明,处理视频数据的神经网络如何被训练存在缺点 - 他们没有学会像在端到端训练视频分类任务时那样有效地捕捉动作,”Ross说。“我们展示了改善这种情况的一种方法,但它需要培训教师和学生网络。理想情况下,教师不需要,我们可以培训学生网络,直接实现最先进的表现培训数据。我认为我们的论文展示了什么是可能的,挑战其他人,包括我们自己,找到更直接的途径来培养最先进的视频网络。“
注:本文编译自外网
安全自动化 官方微信 as视界 服务号
不得转载声明: 凡文章来源标明“安防知识网”的文章著作权均为本站所有,禁止转载,除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。