SIFT特征在脸部识别中的研究与应用

资源描述

SIFT特征在脸部识别中的研究与应用摘要: 一些模式识别和分类技术已经应用到生物领域。其中，一个有趣的技术是尺度不变特征变换(SIFT)，它在最初设计时是用于对象识别。尽管SIFT特征已经成为一种非常强大的特征描述方法，但它在人脸识别技术方面的应用却从来没有过系统的研究。本文探讨的是SIFT特征算法在人脸识别方面的应用。为了确定方法的真正潜力和适用性，不同的匹配方案将用BANCA数据库来测试，以便得到最适合的方法。1 引言人脸识别可能是第一个被人们用来认识熟悉的人的认知过程。虽然也可采用其它感官线索，比如说语音，步态，甚至是出生时的气味，但是这个识别已知脸的能力，在人们出生的时候就有了。这些问题，使得脸部识别在生物特征识别和计算机视觉的研究性领域中，变得非常有趣。人脸识别是一个复杂的问题，但是基本上可以归结为模式分类的问题。许多模式识别技术已经投入运用，而且其它的也正在进行开发研究。脸部分析的案例由于一些脸部的特征与其它模式识别问题是不常见的，因而具有更多的复杂性。维数的诅咒(至少处理一个2 D图像)由于分类模式多样化而更加复杂。脸部不是一个严格对象，并且它会有连续的非刚性变形。脸部不同的东西同时也是它们的共同之处，比如说两只眼睛和一张嘴巴。虽然脸部一般作为一个二维物体进行处理，但是因为脸部的三维结构和它在空间的运动，会产生许多歧义并导致一些假说的失败。因为这些原因，人类的脸部分析就面临了一个不确定的问题。因此不同技术已经运用到限制模式匹配和分类过程。其中，对于减少脸部空间维度有许多值得介绍的方法，它们都是通过不同的优化处理过程达到目的，如主成分分析(PDA)、线性判别分析(LDA),费舍尔判别分析(FDA)与独立分量分析(ICA)。其它技术则是基于图像上脸的表面约束和模型，且都以形状和纹理信息的形式显示。还有一些方法是通过运用伽柏核心程序的多尺度滤波，从而得到脸部显著特征的提取和分类。沿着这个方向，对“人脸模型变形”的估计和渐进变形会派生出一个新的技术，即三维人脸和它在图像上的二维表现形式之间的约束映射。近来，尺度不变特征变换(SIFT) 方法可用于识别一般物体时进行边缘切除，该方法目前主要应用在这个领域，同时其它的机器视觉中也有所应用。SIFT算法中一个有趣的特点是，通过图像产生的尺度空间提取出本地模型，并从这个模型中提取灰度级别的特征点。在这方面， SIFT方法与本地二进制模式方法类似，它们的区别是：从提取的2D模型中得到的视图不变性的表现形式有所不同。先不论这个技术的潜力和广泛的适用性，就二维图像的分类而言，至少据我们所知，它从未在人脸识别/验证上运用过。在本文中，首次尝试应用SIFT对脸部进行分类。这个基本SIFT方案会在一个标准人脸数据库中进行测试，该数据库由三种不同匹配技术构成。一般来说，利用对物体几何对象的先验知识，可以同时在精度和速度上用来提高识别性能。因此，核心的SIFT算法已经适应了根据三个不同方案而得到的脸部图像分类。在拟定的解决方案中，根据脸部几何形状，对提取的特征进行选择和分组，其分组依据是对脸部几个特征位置的先验知识（通常是眼睛和嘴巴）。从结果中很容易看到，当根据脸部几何形状进行特征筛选时，分类将会更加精确。从这方面看，用于脸部识别技术的真正潜力和广泛实用性已经得到了研究。2 尺度不变特征变换在2004年，David Lowe提出了一种从图像中提取不变特征的方法。它称之为尺度不变特征变换(SIFT)方法。这一类型特征的特点是对图像的尺度和旋转具有不变性，并能对大范围的仿射失真进行鲁棒匹配、改变3D视点、增加噪声以及改变照亮度，从而提供准确的匹配。它们在空间域和频率域都有很好的布局，以减少因阻断、杂波或噪音而造成中断的可能性。大量的特征可以通过有效的算法从典型图像中提取出来。一张500*500像素的典型图像会产生2000个稳定特征点(虽然这个数字取决于图像内容和所选择的各种参数)。此外，这些特征是非常独特的，它允许单个特征点与大型特征库进行正确匹配，这些特征库会提供物体的基本图像和场景识别。通过级联滤波的方法使提取特征的成本实现最小化，只有通过初步测试后，才会进行稍复杂的计算。以下是生成图像特征的主要计算步骤：1尺度空间极值检测：计算第一步即搜索所有尺度和图像位置。通过高斯差异分布识别潜在的兴趣点，这些点应具有尺度和旋转不变性。给出一个高斯模糊图像：在这里，I(x, y)即为所给图像，同时，为了在尺度空间中（G为尺度空间），有效地检测到稳定的关键点的位置，应该使用11中提到的方法。图1. 模糊图像处于不同尺度，并且是模糊高斯分布的计算。图2. 局部极值的检测，标记有X的像素被拿来与处于3*3*3邻域内的26个邻居做比较，跨越了相邻的DoG的图像。在高斯差异函数（D(x,y,)）与图像进行卷积时，用到了尺度空间极值，其中D(x,y,)由两个相邻尺度的差计算得到，其中，两个相邻尺度相差一个常数与系数k的乘积：兴趣点(在SIFT中也称为关键点)是DOG图层所有尺度中的极大值或极小值。DoG图层中的每一个像素均与它同尺度中的8个邻域点作比较，同时还要和相邻尺度的上下各9个点进行比较。如果这个像素是最大值或者最小值，它就被选定为候选的关键点。2. 关键点的定位：在每个候选的位置上，建立一个详细的模型来确定位置和尺度。通过衡量它们的稳定性来决定关键点的的选取。一旦一个候选的关键点是通过与邻域像素比较而得到时，那下一步就要记录关于它附近的位置、尺度和旋转主曲率等详细数据。当一个点具有很低的对比度（因此对噪声很敏感）或者在边缘附近时，我们就会将这个店排除。3. 分配方向：根据本地图像的梯度方向，关键点会被分配到一个或者多个的方向。为了确定关键点的方向，根据相邻关键点（高斯图像中最接近关键点尺度的点）的方向生成一个梯度方向直方图。每个相邻像素点都由其梯度大小值和尺度为关键点1.5倍的高斯窗加权得到。直方图的峰值对应关键点主方向。为了使主方向对应到直方图的极大值，会生成一个单独的关键点。并且其它任何方向都会小于最大值的百分之80。同时，所有关于关键点方向的属性都会确定，这就保证它们具有了旋转不变形。4. 关键点描述符：在每个关键点所在区域的选定的尺度内，对本地图像梯度进行测量。这就意味着允许局部形状畸变和照明度的改变。一个关键点的方向一旦确定，那么特征描述子将会由一系列在4*4像素区域上的直方图计算得到。方向直方图与关键点方向相关，这个方向数据来自于与关键点尺度最接近的高斯图像。就像之前那样，每个相邻像素点都由其梯度大小值和尺度为关键点1.5倍的高斯窗加权得到。每个直方图包含8个二进制文件，每个描述符包含一个关键点周围的4个直方图的数组。这就构成了一个SIFT的特征向量的4*4*8 = 128个元素。这个向量经过归一化处理以实现亮度不变性，这样，这个描述符就对光照的仿射变化具有不变性。图3和图4中给出了一些SIFT算法应用于脸部图像(数据库BANCA)识别的例子。特别是在具有统一主题的前三个图像中，共同的特征都已经表示出来（用黑点表示）：这对于相应特征的匹配提供了可能性。后面三个图像则呈现出三个不同的主题：在这种情况下，SIFT特征区别很大。图3. 图像过滤提取的例子。这些图像在不同造型中，呈现出相同对象。黑点表明在所有的三幅图中的共同稳定SIFT。3 匹配策略为了识别一张脸，在测试图像中计算的SIFT特征，应该与模板的SIFT特征相匹配。在本节中，会对不同的匹配方法进行研究。它们不同于Lowe的方法，在某种意义上，它们会更加的简单，同时也与我们正在解决的问题有更紧密的联系。此外，这个方法更注重识别，而不是认证(识别意味着找到更好的匹配，用优化过的霍夫变换来解决)。图4. 运用提取SIFT的示例图。这些图像呈现了不同对象。这个SIFT差别也很大。在每个匹配策略开始都会使用两套特征，分别是在测试图像上的计算和在模板图像上的计算。就如前面第二节所解释的一样，每个特征都是四部分组成：轨迹(特征的位置)、尺度、方向和描述符。最后的描述符是一个128维的向量。为简单起见，给出一个关键点Ki，我们先分别称F(Ki)，L(Ki)，S(Ki)和O(Ki)为它的特征描述、位置、尺度和方向。针对不同的方法，会需要SIFT特征中的一部分或者所有的信息。3.1. 一对最小距离这个方法是最简单的一种：计算两个图像中所有关键点描述对的距离，再把最小距离当做匹配得分。更确切的说，给出两张图像Itest和Itemp，分别代表着测试图像和模板图像，两套特征经过计算：这个匹配得分 (一对最短距离)通过计算得到。在这里，是描述符的距离。尽管可以采用更复杂的方法(见19)，但本文只对欧氏距离进行简单的研究。这个简单的方案既没有采用位置也没有采用尺度和方向的信息：它表现出了一个最基本的系统。这个方法的主要思想是，一个对象的脸可能包含了许多鲜明的特征，在这张脸上的一个特征点可以与测试图像中的特征点进行匹配。3.2. 眼睛和嘴的匹配第二个方法考虑到了脸部大部分的信息，主要聚集在眼睛和嘴的周围。一旦这些目标位置被确定下来，这个匹配策略就可以只考虑归属于这个区域的SIFT特征而忽略其它图像区域的信息点。针对眼睛和嘴巴位置的不同，人们提出了不同的技术(见例6和其中的参考)：在这里我们假设这个位置是已知的。给一张图像I，提取两张子图片：一张位于眼睛附近，一张位于嘴附近，我们分别称为Ieyes和 Imouth。这个匹配将在成对组合方式下执行，即眼睛对眼睛，嘴巴对嘴巴。最后平均计算一下这两个距离。更确切的说即是：3.3. 在规则栅格上匹配第一个方法没有考虑到特征点的位置：这就引发了一个问题，因为两个关键点的最小距离不可能在相同脸部部分联系起来。换句话说，脸部所有部分都可以相互匹配是不现实的。因为只考虑了眼睛和嘴巴，所以这个问题在第二个方法中得以解决。不过在这种情况下，位于右眼的特征可以与左眼的特征相匹配。因此，如果这张图像或多或少的注册过，那么位置相关匹配就可以实现。注册是面部认证和识别的一个特别重要的问题，应该得到合理解决。然而它是与认证/识别是完全不同的问题，并且应该在应用匹配技术前得到解决。事实上，在最近所有的数据库中(就像BANCA)，为了允许图像重新注册，眼睛的位置都会给定：只有这样匹配方法才可得到充分研究。在本文，我们假设图像已注册。这段中介绍的匹配方法是利用重叠的规则栅格将图像细分成不同的子图。通过计算所有成对对应的子图像之间的特征距离并做平均处理后，进行两张图像的匹配。更确切的来说，这两张图像将被细分为一系列局部重叠的子图像，称为I1IT。经过初步实验评估后(这里没有给出)，我们发现尺寸分别为长宽的1/4和1/2的子图像，表现出在精确定位和修复注册错误之间的折中办法。这个重叠设定为25%。最后这个匹配得分(规则栅格)就是计算成对图像匹配分数的平均值。即：4 实验评价以下脸部认证的实验在BANCA数据库上进行一1个包括脸部和声音的多模式数据。用于脸部识别的部分由52个对象组成(26个女性，26个男性)。对于每个对象，记录了在不同条件下的12个不同的类别。对于每个类别，会提取5张图像，用于练习及客户或冒充者的测试。在BANCA协议中，随着难度不断提升，定义了7种不同的实验配置。在我们的实验中，我们用匹配控制协议(MC)，这个协议将图片从第一个类别里集中起来用于练习，而来自第二、三、四类别图像用于测试。在这个例子中，我们使用已注册的图像，这样图像的位置标注信息就已知。特别是在预处理阶段，所有的图像都在直方图均衡化后进行简单的几何归一化处理。在几何归一化中，这个脸部将被映射到一张210*200像素的输出图像中去。这个映射使用了仿射变换只变换平移、旋转和尺度。这个图像可以通过人工说明的方法进行转换，例如注释眼睛的映射位置为输出图像边缘的25%且自图像顶端向下35%处的点。可以使用标准方法对直方图进行均衡化。为了得到研究结果，测试图像将被分为两组，G1和G2，每组有26个对象。错误率由下列步骤计算得到：在G1上做实验，得到G1分值在G2上做实验，得到G2分值用G1分值来计算ROC曲线，来决定现有的等错误率以及对应的阀值G1 用阀值G1来计算错误接受率Rate(FARG2(G1)以及G2分值上的错误拒绝率。通过下列计算G2的误差加权率(WER(R)R=0.1、1和10 在G1上用双重方法计算WER(R)参数R预测了在错误接受和错误拒绝之间的成本率。SIFT特征已经用Lowe的代码进行计算。这三种匹配方法已经进行测试：在表1和表2中给出识别的精确度。G1和G2的均等错误率在表1中呈现(对应的ROC在图5中显示)，而加权错误率在表2中，分别针对三种不同的R值。从表和图形中可以得出，考虑背景信息是有益的：当对比脸部对应的部分时，会得到明显的改进。特别是集中脸部和嘴的比较后，改善会更加明显。此外，当运用规则栅格的方法去比较对应部分时，我们会得到最好的结果。以上这些结果揭示出在匹配中位置信息扮演的重要角色。表1. 在G1和G2上，对三种方法的前误差。“MPD”代表了一对最小距离。“EM”针对眼睛和嘴，“RG”针对规则栅格。图5. G1和G2的ROC曲线：“MPD”代表一对最小距离，“EM”针对眼睛和嘴，“RG”针对规则栅格表2. 针对三种方法的不同的文字差错率：“MPD”代表一对最小距离，“EM”针对眼睛和嘴，“RG”针对规则栅格。5 结论在本文中，主要介绍了SIFT特征应用于人脸识别技术中的方法。目前已提出三种不同的匹配技术，即：计算两个图像中关键点描述子之间的距离并将最小距离作为匹配得分。只使用属于眼睛和嘴巴周围区域的SIFT特征。对位于规则栅格和匹配重叠部分的SIFT特征进行匹配。已利用三种技术分别对BANCA数据库中G1和G2的图像组进行集中测试。从实验的开展分析，沿规则栅格进行匹配的方法优于其它两种方法，而一对最小距离方法为较差的方法。即使取得的分数与分类测试数据库中的标准人脸不能很好匹配，它们仍然确认SIFT特征在这方面的适用性。值得注意的是亮度和形状并没有进行精确的规范化。SIFT特征在该领域的首次应用中就提出过这个问题，在特征匹配过程中，必须考虑到脸形的特殊性和多变性。另一方面，SIFT算法本身应进一步分析和调整，以充分适应人脸形状和纹理。这是朝这个方向的首次尝试，未来将会研究更复杂的匹配技术和适当的特征分类的应用。为了更好地了解该方法的实际潜力，我们与其它方法（如PCA或LDA）进行比较。未来将研究的另一个方向是使用SIFT特征解决图像注册问题。

展开阅读全文

SIFT特征在脸部识别中的研究与应用

最新文档