用于视频动作识别的蒸馏3-D(D3D)网络

2019-01-10 11:42:47作者：Ingrid Fadelli，Tech Xplore来源: a&s智慧生活

[摘要] 谷歌、密歇根大学和普林斯顿大学的一组研究人员最近开发了一种新的视频动作识别方法。视频动作识别需要识别视频片段中执行的特定动作，例如打开车门、关闭车门等。

　蒸馏3D网络(D3D)。研究人员训练了一个3D CNN来识别RGB视频的动作，同时从识别光流序列动作的网络中提取知识。在推理期间，仅使用D3D。

　　谷歌、密歇根大学和普林斯顿大学的一组研究人员最近开发了一种新的视频动作识别方法。视频动作识别需要识别视频片段中执行的特定动作，例如打开车门、关闭车门等。

　　大多数最先进的视频动作识别工具采用两个神经网络的集合：空间流和时间流。在这些方法中，训练一个神经网络以基于外观(即“空间流”)识别常规图像流中的动作，并且训练第二网络识别运动数据流中的动作(即，'时间流)。 “)。然后将这两个网络获得的结果组合起来以实现视频动作识别。

　　谷歌人工智能研究人员David Ross对TechxPlore说：“多年来，我们一直致力于教计算机识别视频中的人类和非人类行为。”许多顶级的执行方法，包括我们自己的方法，都依赖于“双流”方法的变体。虽然这种方法的经验结果很好，但我们发现它在理论上并不令人满意。难道网络不应该学习直接从规则图像流中提取所需的运动信息吗?我们的目标是研究改进这一点的方法，以便用一个直接从数据中学习的单一网络取代两个流。”

　　该网络用于预测来自3D CNN特征的光流。研究人员将解码器应用于3D CNN中的隐藏层(此处在第3A层描述)。该图显示了I3D / S3D-G的结构，其中蓝色框表示卷积(虚线)或初始块(实线)，灰色框表示池化块。图层名称与Inception中使用的图层名称相同。

　　在最近的研究中，空间和时间流都包括3-D 卷积神经网络(CNN)，其在尝试分类之前将时空滤波器应用于视频剪辑。从理论上讲，这些应用的时间滤波器应该允许空间流学习运动表示，因此时间流应该是不必要的。

　　然而，在实践中，当包括完全独立的时间流时，视频动作识别工具的性能得到改善。这表明单独的空间流不能检测由时间流捕获的一些信号。

　　为了进一步研究这一观察结果，Ross和他的同事研究了用于视频动作识别的3-D CNN的空间流是否缺乏运动表示。随后，他们证明了这些运动表示可以使用蒸馏来改进，蒸馏是一种将整体中的知识压缩成单个模型的技术。

　　三个解码器用于预测光流。PWC解码器类似于PWC-net的光流预测网络。没有解码器使用时间滤波器。

　　“首先，我们训练'教师'网络来识别动作输入的动作，”Ross解释说。“然后，我们培养了第二个”学生“网络，它只提供常规图像流，具有双重目标：做好动作识别任务并模仿教师网络的输出。基本上，学生网络学习如何比老师更好地基于外观和动作进行识别，以及更大，更笨重的双流模型。“

　　最近，许多研究还测试了视频动作识别的替代方法，其需要训练具有两个目标的单个网络：在动作识别任务中表现良好，并且直接预测在动作识别任务中的低级运动信号(即光流)。视频。研究人员发现他们的蒸馏方法优于这种方法。这表明，对于网络而言，识别视频中的低级光流不如重现教师网络已经学习的关于从运动中识别动作的高级知识那么重要。

　　“我们已经证明，完全有可能训练一个单流神经网络，其性能与双流网络一样，”Ross说。“当提供新的'测试'视频时，只需要上述学生网络来识别视频中的动作。”

　　使用在层3A处应用的PWC解码器由S3DG和D3D(没有微调)产生的光流的示例。每个像素的颜色和饱和度分别对应于运动的角度和大小。TV-L1光流以28×28px显示，即解码器的输出分辨率。

　　基本上，Ross及其同事进行的研究表明，使用大约1/3的计算可以获得当前最先进的视频动作识别方法的性能。这样可以更轻松地在计算受限的设备上运行这些模型，例如智能手机，以及更大规模(例如，识别YouTube视频中的“扣篮”等行为)。

　　“我们的工作表明，处理视频数据的神经网络如何被训练存在缺点 - 他们没有学会像在端到端训练视频分类任务时那样有效地捕捉动作，”Ross说。“我们展示了改善这种情况的一种方法，但它需要培训教师和学生网络。理想情况下，教师不需要，我们可以培训学生网络，直接实现最先进的表现培训数据。我认为我们的论文展示了什么是可能的，挑战其他人，包括我们自己，找到更直接的途径来培养最先进的视频网络。“

注：本文编译自外网

[责任编辑：王欣欣]

a&s作者专栏开通指南

安全自动化官方微信 as视界服务号

不得转载声明： 凡文章来源标明“安防知识网”的文章著作权均为本站所有，禁止转载，除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。

聚合阅读

视频动作识别 D3D网络神经网络

: 未来电子车牌是否将完全取代视频车牌识别

电子车牌是基于物联网无源射频识别(RFID)技术的细分、延伸及提高的一种应用。它的基本技术措施是：利用RFID高精度识别、高准确采集、高灵敏度的技术特点，在机动车辆上装有一枚电子车牌标签，将该RFID电子车牌作为车辆信息的载体，并由在通过装有经授权的射频识别读写器的路段时，对各辆机动车电子车牌上的数据进行采集或写入，达到各类综合交通管理的目的。

: 视频图像识别分析软件，掀开监控新篇章

随着目前技术的不断进步，监控系统也演变得更加复杂。比如在平安城市监控这样复杂且大型的工程中，单靠人工操作是一件很困难的事，视频图像识别分析软件则可以解决目前超大视频数据容量的问题。本文详细介绍了有关视频图像识别分析软件的产品优势、采购标准、市场情况以及平安城市中的表现等，希望对您有所帮助。\r\n

专栏

郭雷

直击痛点 | 打通数据孤岛，共建纺服数字化新时代

据相关数据显示，2021年我国纺织业实现营业收入5.17万亿元，...

九江琵琶客

智能家居的产品形态三部曲

随着智能家居概念的火爆，其充斥了各个新闻话题版面。可是迄...

焦盛元

AI 赋能视频新商业价值

赋能视频，AI为安防带来了全新的商业价值。
莫明

对于海康威视2020年半年报，投资研究员这么说……

基于财报数据以及业绩说明会议，一些投资研究员与笔者进行了...

云电信息

监控设备日常维护要点

备件齐、配件齐、工具齐、仪器齐。

江宇

关于视频监控网络设计的讨论

在A&S 安防知识网上申请了作者专栏，刚好在此网站上看到一篇...
胡学慧

系统集成资质审批几时休?

过去很长一段时间里，具有安防资质、系统集成资质、智能建筑...

黄亮

人工智能洪流下视频监控市场的发展趋势

在安防监控市场品牌持续收敛的阶段，牢牢掌控安防市场渠道与...

汪琴丽

HID北亚区负责人王浩：数据安全与开放生态是安防未来的核心命题

从统一化愿景到AI落地，从安全博弈到生态共建，王浩的分享揭...

换一换

我要投稿

文章排行榜

杂志

安全&自动化2023年9-10月第261期

2023年11月第261期

2022-2023年，全球经济前景的“不确定性”正在对安防与其他行业产生着重大的影响，通货膨胀、供应链挑战、地缘政治冲突、全球劳动力市场结构变化……不稳定的经济环境在很大程度上给全球安防行业的发展带来了极大的阻力。2022年国内安防市场保持着增长，但增速放缓，2023年国内宏观经济呈现复苏态势，市场需求有所回暖，但由于国内政府财政收支减少、部分项目进展缓慢、房地产市场下滑、企业端市场投资信心减弱等因素，给安防企业带来持续挑战。

活动展会

IOTE 2026 第二十五届国际物联网展・深圳站

本届展会将进一步扩容，全面覆盖AI芯片、大模型、智慧城市、工业物联网、智能物流、智能家居、机器人、智能硬件、嵌入式技术、工业物联网与电子纸等全产业链，继续联动AGIC人工智能展与ISVE智慧商显展，打造AIOT生态的全球舞台。
2026 年 Intersec Shanghai 国际安全科技与应用展览会
2026新疆航空航天防务科技装备博览会
2026第八届中国（昆明）南亚社会公共安全科技博览会
2026中国(上海)防务与安全装备展览会 6 月启幕打造全球防务安全领域合作新平台