首个基于时序平移的视频迁徙抨击算法,复旦大学筹商入选AAAI 2022
[[441526]]
比年来,深度学习在一系列任务中(举例:图像识别、方向识别、语义分割、视频识别等)取得了繁多奏效。因此,基于深度学习的智能模子正逐渐平素地应用于安防监控、无东说念主驾驶等行业中。但最近的筹商标明,深度学习自己格外脆弱,容易受到来自招架样本的抨击。招架样本指的是由在干净样本上增多招架扰动而生成不错使模子发生极端分类的样本。招架样本的存在为深度学习的应用发展带来严重阻拦,尤其是最近发现的招架样本在不同模子间的可迁徙性,使得针对智能模子的黑盒抨击成为可能。具体地,抨击者欺诈可王人备探访的模子(又称白盒模子)生成招架样本,来抨击可能部署于线上的只可赢得模子输出收尾的模子(又称黑盒模子)。此外,当今的干系筹商主要聚合在图像模子中,而关于视频模子的筹商较少。因此,亟需开展针对视频模子中招架样本迁徙性的筹商,以促进视频模子的安全发展。

时序平移抨击要领
与图片数据比较,视频数据具有特地的时序信息,该类信息大约描绘视频中的动态变化。当今已有多种不同的模子结构(举例:Non-local,SlowFast,TPN)被冷漠,以拿获丰富的时序信息。但是各样化的模子结构可能会导致不同模子关于并吞视频输入的高反应区域不同,也会导致在抨击过程中所生成的招架样本针对白盒模子产生过拟合而难以迁徙抨击其他模子。为了进一步剖析上述不雅点,来自复旦大学姜育刚团队的筹商东说念主员领先针对多个常用视频识别模子(video recognition model)的时序判别方法间的相同性张开筹商,发现不同结构的视频识别模子通常具有不同的时序判别方法。基于此,筹商东说念主员冷漠了基于时序平移的高迁徙性视频招架样本生成要领。

视频模子的时序判别方法分析
在图像模子中,往往欺诈 CAM(Class activation mapping)来可视化模子关于某张图片的判别区域。但是在视频模子的判别方法由于特地的时序维度而难以可视化,且难以在不同模子间进行比较。为此,筹商东说念主员界说视频帧的迫切性排序手脚视频模子的时序判别方法。要是两个模子分享相同的时序判别方法,那么视频帧迫切性的散布会愈加相同。
视频帧的迫切性打算
筹商东说念主员使用了三种路线臆度视频帧关于模子有经营的迫切性:Grad-CAM,Zero-padding 和 Mean-padding。Grad-CAM 在由 CAM 打算得到的 attention map 中针对每一帧进行均值打算,该均值则为视频各帧的迫切性度量。而 Zero-padding 使用 0 来替换第i视频帧中的统共像素值,并打算替换前后的亏本值的变化进度。变化进度越高阐明第 i 视频帧越迫切。访佛地,Mean-padding 使用相近帧的均值替换第i视频帧。通过以上三种样貌,可打算得到在不同模子下视频帧的迫切性进度,并以此手脚模子的时序判别方法。
时序判别方法相同度打算
由上述要领打算视频数据x在模子A上的视频帧迫切性得分为

,其中T默示输入视频帧的数量。那么针对模子A和模子B,可得到

,链接 Spearman’s Rank Correlation,可打算模子间时序判别方法的相同性

,即

其中,

实施基于迫切性值的排序操作并复返视频各帧的排序值。

的值在-1和1之间,当其就是0时默示模子A和模子B间的判别方法不存在关系,而-1或者1则默示明确的单调关系。

的值越大则模子间的判别方法越相同。基于此,可结束不同视频模子时序判别方法间关系的度量。

不同视频模子间判别方法的相同进度
上图为 6 个视频模子间的判别方法关系热图。在不同模子联想架构下,Non-Local、SlowFast 和 TPN 间的时序判别方法相同进度较低;而在换取联想架构下,离别使用 3D Resnet-50 和 3D Resnet-101 手脚 backbone 的视频模子具有愈加相同的时序判别方法。以上趋势在三种视频帧迫切性打算要领中都得到了考据。由此,可在施行上讲明该论文的假定,即不同视频模子结构会导致不同的时序判别方法。
时序平移抨击要领
基于以上不雅察,筹商东说念主员冷漠了基于时序平移的迁徙抨击要领。通过沿着时序维度转移视频帧,来裁汰所生成招架样本与白盒模子特定判别模子之间的拟合进度,提高招架样本在黑盒模子上的抨击奏效用。
使用

默示输入视频,

默示其对应信得过标签,其中T,H,W,C离别默示帧数,高度,宽度和通说念数,K默示类别数量。使用

默示视频模子关于视频输入的预计收尾。界说

为招架噪声,那么抨击方向不错界说为

,其中

,且适度

。界说

为亏本函数。则非方向抨击的方向函数可界说为:

为了裁汰抨击过程中关于白盒模子的过拟合自得,筹商东说念主员对时序转移后视频输入的梯度信息进行团员:

其中L默示最大平移长度,且

。函数

默示将统共的视频输入沿着时序维度平移i帧。当平移后的位置大于T时,设刻下帧为第i帧,即t+i>T,则第t帧的位置变为第t+i-T帧,不然为第t+i帧。而在时序平移后的视频输入上打算完梯度后,仍会沿着时序维度平移回原始视频帧序列,并通过w_i来整合来自不同平移长度的梯度信息。w_i可欺诈均一、线性、高斯三种样貌生成(参考 Translation-invariant 抨击要领)。
抨击算法全体过程如下,其中

用来适度生成的招架噪声骄贵

。

收尾议论与分析
为了探究时序平移抨击要领的性能,筹商东说念主员在 UCF-101 和 Kinetics-400 两个数据集,Non-local,SlowFast,TPN 三种不同结构的视频模子中进行对比施行,其中视频模子离别使用 3D Resnet-50 和 3D Resnet-101 手脚 backbone。当使用某一种结构的视频模子手脚白盒模子时,打算所生成招架样本在其他结构的视频模子上的抨击奏效用(Attack success rate,ASR),以此手脚评价目的。
筹商东说念主员离别在单步抨击和迭代抨击要领下进行了施行对比。不错看出时序平移抨击要领在单步抨击和迭代抨击下都能取得更高的 ASR,标明所生成的招架样本具有高迁徙性。此外,在视频模子上,单步抨击的收尾好于迭代抨击。这阐明,在图像模子中发展出的迁徙抨击要领不适用于更复杂的视频模子。临了,当使用 TPN 模子手脚白盒模子时,时序平移抨击要领的性能晋升较为有限,筹商东说念主员通过分析后合计 TPN 模子关于时序转移愈加不敏锐。

视频识别模子上的 ASR 对比图
下表展示了与 Translation-invariant(TI)抨击要领、Attention-guided(ATA)抨击要领和 Momentum iterative(MI)抨击要领相链接后的性能比较。不错看出,时序平移要领不错扶助这些要领露出更好的性能,起到补充的作用。

链接现存要领的平均 ASR 收尾对比
此外,筹商东说念主员还针对不同的平移长度L、权重w_i生成战术及平移战术进行了消融施行。
平移长度L决定了有若干个平移后的视频输入被用来进行特征团员。当L=0时,时序平移要领将会退化为最基本的迭代抨击要领。因此,针对平移长度的筹商是十分有必要的。下图展示了不同平移长度下时序平移抨击要领在不同黑盒模子下的 ASR 变化情况。不错看到,Non-local Resnet-50 模子的弧线愈加矫捷,而其他黑盒模子的弧线呈现先飞腾再趋于矫捷的特质。这是因为 Non-local Resnet-50 与 Non-local Resnet-101 分享相同的模子结构。为了均衡 ASR 和打算复杂度,筹商东说念主员最终选取L=7来进行施行。

不同平移长度下的时序平移抨击要领性能对比
下表展示的是关于权腾达成战术和平移战术的消融施行收尾。从表中不错看出,当赋予具有更大时序平移长度的视频输入以更小的权重时,时序平移抨击要领能取得较好的收尾。此外,当平移战术变为随即帧交换或远距离交换时,时序平移抨击要观点取得较差的收尾。

不同权腾达成战术和平移战术下时序平移抨击要领的性能对比