深兰科技动作识别

上传人:lis****210 文档编号:127780478 上传时间:2022-07-30 格式:DOCX 页数:6 大小:258.71KB
返回 下载 相关 举报
深兰科技动作识别_第1页
第1页 / 共6页
深兰科技动作识别_第2页
第2页 / 共6页
深兰科技动作识别_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
深兰科技动作识别|人体骨架时空图卷积网络的可学习边与权动作识别是基于计算机视觉识别的技术,可以实时对检测区域内人员动作进行识别。作为深兰科技计 算机视觉技术的核心产品之一,搭载自动驾驶功能的“熊猫智能公交车”巳获得广州、上海、武汉、长沙、 深圳等多地的自动驾驶测试牌照,并且在武汉取得了全球首个自动驾驶客车的商用牌照。而其行人行为预 测和车内异常行为识别(摔倒、偷窃等)两大功能,便是动作识别最直接的体现。此外,深兰的智慧工地管 理平台一一“工地大脑”、智能社区管理系统,以及明厨亮灶系统等,都一定程度使用到了动作识别技术。港中文的Sijie Yan团队也做了不少关于动作识别的工作,他们的论文Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition发表在近期 AAAI 上。本文将重点 介绍论文中关于动作识别的时空图卷积的可学习边与权重,及其划分策略。一、空间图卷积神经网络在深入研究成熟的ST-GCN之前,团队首先要在一个帧内查看Graph CNN模型。在这种情况下,在时间 T的单个帧上,将有N个关节节点Vt,以及骨架边E_S(T)= v_ti v_tj |t=T,(i,j)uH。回忆一下在 2D自然图像或特征图(Feature Map)上的卷积运算的定义,它们都可以视为2D网格,卷积运算的输出特征 图仍然是2D网格。使用跨步1和适当的填充,输出特征图可以具有与输入特征图相同的大小【图一】。在下面的讨论中,团队将假定这种情况。给定一个卷积算子,其核大小为KXK,并且输入特征图f_in 的通道数为c。空间位置x上单个通道的输出值可以写成:K Kfoul(X)= E An(p(x,/l, w)互=1其中采样函数(Sampling Function)p: Z2XZ2Z2枚举位置x的邻域(Neighbors)。在图像卷积的情 况下,也可以表示为p(x,h,w)= x + p(h w)。权重函数(Weight Function)w: Z2Rc在c维实数空间 中提供一个权重向量,以使用维度c的采样输入特征向量计算内积。注意,权重函数与输入位置x无关。 因此,滤波器权重在输入图像上的所有位置共享。而通过在p(x)中编码矩形网格,可以实现图像域上的标 准卷积,在(Dai et al.2017)中找到该构思的更详细的说明和其他应用。Graph Convolutional hieural Wtwork OperatorsCr1vXlLtt*iC)n L占v电 rv Smooth Sptrl图一然后,定义图上的卷积操作:通过将以上形式扩展到把输入特征图换成采用空间图V_t的方式。也就 是说,特征图f_in: V_t-R”c在图的每个节点上都有一个向量,扩展的下一步是重新定义采样函数p 和权重函数w。采样函数权重函数与采样函数相比很难定义。在2D卷积中,中心位置周围自然会存在一个刚性网格。因此,邻 域里面的像素可以具有固定的空间顺序。然后可以通过根据空间顺序索引(c,K,K)维的张量来实现权重函 数。对于刚刚构建的一般图,没有这样的隐含排列。该问题的解决方案首先在(Niepert,Ahmed,and Kutzkov 2016)中进行了研究,其中顺序(Order)由围 绕根节点(Root Node)的邻域图(Neighbor Graph)中的图标记(Graph Labeling)过程定义。团队遵循这个想 法来构造权重函数,没有给每个邻域节点唯一的标签,而是通过将一个关节节点v_ti的邻域集合B(v_ti) 分成固定数量为K个子集来简化过程,每个子集都有一个数字标签。因此,团队可以具有映射l_ti: B(v_ti) 一 0,1,.,K-1,是把邻域中的一个节点映射到其子集标签。权重函数w(v_ti v_tj): B(v_ti)Rc可 通过索引一个(c,K)维张量实现,或者(3)=雨(1认)(3)团队将在本节中讨论几种划分策略。Spatial Graph Convolution:使用改进的采样函数和权重函数,在图卷积方面,团队现在重写等式1值得注意的是,如果团队将图像视为常规2D网格,则此形式可以类似于标准2D卷积。例如,类似于 3X3卷积运算,团队在以一个像素为中心的3X3网格中有9个像素的邻域。然后应将邻域集划分为9个 子集,每个子集具有一个像素。图二Spatial Temporal Modeling:制定了空间图CNN之后,团队现在进入在骨架序列内对空间时间动态建 模的任务。回想一下在图的构造中,图的时间方面是通过在连续的帧之间连接相同的关节来构造的【图二】。 这使团队能够定义一个非常简单的策略来将空间图CNN扩展到空间时间域。也就是说,团队将邻域的概念 扩展为还包括时间连接的关节。|d(财) K,q-t. (6)参数r控制要包含在邻域图中的时间范围,因此可以称为时间核(Temporal Kernel)大小。为了在空间 时间图上完成卷积运算【图三】,团队还需要采样函数,该采样函数仅与空间情况相同;团队还需要权重 函数,特别是标记图(Labeling Map) l_ST。由于时间轴是有序的,因此团队直接针对以v_ti为根节点的 空间时间邻域,修改标记图l_ST为化(财)=就%) + (q - t + T/2J) X K, (7)其中l_ti (v_tj)是v_ti处单帧样例的标签图(Label Map)。这样,团队在构造的空间时间图上就有 了定义明确的卷积运算。图三二、划分策略给定空间时间图卷积的高层次表述,设计一个划分策略以实现标签图很重要。在这项工作中,团队探 索了几种划分策略。为简单起见,团队只讨论单个帧中的情况,因为可以使用公式7很自然地将它们扩展 到时空域。Uni-labeling单标签。最简单,最直接的划分策略是,把整个邻域集合本身看作一个子集。在这种策 略中,每个邻域节点上的那些特征矢量们将具有一个相同权重向量的内积。实际上,这种策略类似于(Kipf and Welling 2017)中引入的传播规则。明显的缺点是,在单帧情况下,使用这种策略等效于计算权重向量, 以及所有邻域节点们的平均特征向量之间的内积。对于骨架序列分类而言,这不是最佳选择,因为这样操 作可能会丢失局部微分特性(Local Differential Properties)。形式上,团队有K =1和l_ti (v_tj)=0, i,jWDistance partitioning距离划分。另一个自然的划分策略是根据节点到根节点vti的距离d( , vti) 划分邻域集合。在这项工作中,由于团队将D设置为1,因此邻域集合将被分为两个子集,其中d=0表示 根节点本身,其余那些邻域节点们位于d=1的子集中。因此,团队将拥有两个不同的权重向量,它们能够 对局部微分特性(Local Differential Properties),例如关节之间的相对translation进行建模。形式上, 团队有 K=2 和 l_ti (v_tj)=d(v_tj,v_ti)。Spatial configuration partitioning空间配置划分。由于人体骨骼在空间上是局部化的,因此团队 仍可以在划分过程中利用这种特定的空间配置。团队设计了一种策略,将邻域集合分为三个子集:1)根节 点本身;2)向心群(Centripetal Group):比根节点更靠近骨架重心的那些相邻节点们;3)否则为离心群 (Centrifugal Group)。在这里,一帧中骨架中的所有关节的坐标平均被视为其重心。该策略的灵感来自于以下事实:身体部位的运动可以大致分为同心(Concentric)运动和偏心 (Eccentric)运动。1( 0 if Tj Ti妣(跃顶)= ri其中ri是训练集中所有帧上,重心(Gravity Center)到关节i的平均距离。三种划分策略的可视化效果如【图四】所示。团队将基于骨架的动作识别实验,对所提出的划分策略 进行实证研究。可以预期,更高级的划分策略将导致更好的建模能力和识别性能。三、可学习边与权尽管人们在执行动作时那些关节们会成组移动,但一个关节可能会出现在身体的多个部位。但是,在 对这些身体部位的动力学建模时,这些外观应该具有不同的重要性。从这个意义上说,团队在空间时间图 卷积的每一层上添加了一个可学习的mask M。该mask将根据ES中每个空间图的边的学习得到的重要性权 重,缩放节点特征对其邻域节点们的贡献。根据经验,团队发现添加此mask可以进一步提高ST-GCN的识 别性能。为此,也可能具有依赖于数据的Attention Map,团队将其留给以后的工作。同(6I对回图四四、时空图卷积网络实现基于图卷积的实现不像2D或3D卷积那么简单。在此,团队提供基于骨架的动作识别,实现ST-GCN的 详细信息。团队采用与(Kipf and Welling 2017)中类似的图卷积实现。一个单个帧内的那些关节们的体内连接, 被表示为,邻接矩阵A和表示自连接的恒等矩阵I。在单帧情况下,采用第一种划分策略(Uni-labeling) 的ST-GCN可以通过以下公式实现(Kipf和Welling 2017)f2=AT(A + I)ATf.W,(9)其中Aii=.。在这里,多个输出通道的权重向量被堆叠以形成权重矩阵W。在实践中,在时空情况 下,团队可以将输入特征图(Input Feature Map)表示为(C,V,T)维的张量。图卷积是这样来实现的:通 过执行1Xr标准2D卷积,将结果张量与在第二维上归一化的邻接矩阵A” (-口 (1/2) (A+I) A” (-口 (1/2) 相乘。对于具有多个子集的划分策略,即距离划分(Distance Partitioning )和空间配置划分(Spatial Configuration Partitioning),团队再次使用此实现。但是现在请注意,邻接矩阵被拆解成几个矩阵Aj, 其中A+I=E_j A_j。例如,在距离划分策略中,A0 = I,A1 =A。公式9变成:iout = ?琮 Wj,(10)实现可学习的边的重要性权重是很简单的。对于每个邻接矩阵,团队将其与一个可学习的权重矩阵M 相伴随。然后,团队分别替换公式9中的矩阵A+I和公式10中Aj的Aj为(A+I)M和A_jM。其中表示 两个矩阵之间的逐元素乘积。mask M被初始化为全一矩阵。Network Architecture and Training网络架构和训练。由于ST-GCN在不同节点上共享权重,因此在 不同关节上保持输入数据的大小一致很重要。在团队的实验中,首先填喂输入骨架到批处理规范化层以规 范化数据ST-GCN模型由9层空间时间图卷积算子(ST-GCN单元)组成。前三层有64个通道用于输出,接 下来的三层有128个通道用于输出,最后三层有256个通道用于输出。这些层具有9个时间核大小。Resnet 机制应用于每个ST-GCN单元,而且在每个ST-GCN单元之后,团队以0.5的概率随机删除(Randomly Dropout) 了这些特征,以避免过拟合。将第4和第7时间卷积层的步幅设置为2作为池化层,此后,对结果张量进 行全局池化,以获得每个序列的256维特征向量。最后,团队将它们提供给SoftMax分类器。使用具有0.01学习率的随机梯度下降学习模型。每隔10 个epochs,团队会将学习率降低0.1。为避免过度拟合,在Kinetics数据集上进行训练时,团队执行两种 扩充来替换dropout层(Kay等人2017)。首先,为了模拟摄像机的运动,团队对所有帧的骨架序列执行随机仿射变换。特别是,从第一帧到最 后一帧,团队选择一些固定角度,平移和缩放因子作为候选,然后随机采样三个因子中的其中两个组合, 以生成仿射变换。此变换被插入到中间帧中以产生一种效果,就好像团队在回放过程中平滑地移动视点一 样。团队称这种增强为随机移动。其次,团队在训练中从原始骨架序列中随机抽取片段(fragments),并在 测试中使用所有帧。网络顶部的全局池化使网络能够处理长度不确定的输入序列。参考文献Yanetal.2018BrunSijieYan,YuanjunXiong,DahuaLin.2018.SpatialTemporalGraphConvolutionalNetwo rksforSkeleton-BasedActionRecognition.InarXiv:1801.07455.Henaff,Bruna,andLeCun2015Henaff,M.;Bruna,J.;andLeCun,Y.2015.Deepconvolutionalnetworksongra ph-structureddata.InarXiv:1506.05163.Husseinetal.2013Hussein,M.E.;Torki,M.;Gowayyed,M.A.;andEl-Saban,M.2013.Humanactionrecognit ionusingatemporalhierarchyofcovariancedescriptorson3djointlocations.InIJCAI.Kayetal.2017Kay,W.;Carreira,J.;Simonyan,K.;Zhang,B.;Hillier,C.;Vijayanarasimhan,S.;Viola,F .;Green,T.;Back,T.;Natsev,P.;etal.2017.Thekineticshumanactionvideodataset.InarXiv:1705.06950.Keetal.2017Ke,Q.;Bennamoun,M.;An,S.;Sohel,F.;andBoussaid,F.2017.Anewrepresentationofskelet onsequencesfor3dactionrecognition.InCVPR.
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!