一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法,属于云计算和模式识别领域。以Hadoop云计算框架为基础,由内层、中间层和外层三层构成。内层用于存放海量的人脸图像及身份信息与提供分布式计算资源,中间层用于搜索引擎的索引表的建立与维护,外层用于接收任务与分配任务。为了在保证精度的同时提高人脸图像在数据库中的搜索速度,本方法采用在中间层使用K均值聚类算法建立人脸特征向量聚类索引表与聚类名单表相结合的方法。本方法可以使用廉价的普通服务器组构建海量人脸识别搜索引擎,并且采用经过大量实践证明的Hadoop云计算框架为基础实现,具有良好的稳定性,方法简单,易于实施。
【技术实现步骤摘要】
本专利技术属于云计算和模式识别领域,具体涉及。
技术介绍
现代社会中,视频监控是实现社会公共安全防控的主要监控系统。遍布城市各处的视频信息采集点将海量的视频信息汇集到监控中心,为城市的公共安全防控提供了海量的信息。但是,由于缺乏智能的海量视频分析技术,这些信息的利用率极低。为了充分利用这些信息,保障社会安全,人们尝试将人脸识别技术应用于智能视频分析中,实现犯罪嫌疑人身份的快速确认。然而,面对海量的人脸图像信息,人脸识别的搜索速度则完全无法满足安全部门的应用需求,迫切需要一种快速的海量人脸图像搜索比对方法。目前,提升人脸图像搜索速度的主要途径是使用高性能的工作站代替一般计算机,这种方案不仅价格昂贵,而且可扩展性差。云计算技术的迅速发展为解决人脸图像的快速搜索提供了条件,已经有一些基于云计算的解决方案被提了出来。例如:中国专利文献公开号:CN202433901U,名称为:分布式智能人脸视频检索系统,其是一种包括工作终端、WEB服务器、任务调度服务器和监控终端的分布式智能人脸视频检索系统,实现实时检索并降低系统搭建成本;中国专利文献公开号:CN102360355A,名称为:基于云计算环境的人脸识别搜索比对引擎,其针对云计算环境人脸识别搜索比对引擎的接口兼容、授权处理、资源调度及分配等问题给出了解决方案。然而,这些方法或系统很少提及云计算技术的具体实现,同时,这些方法使用自建的分布式体系,稳定性差。云计算技术的实现是一项较为复杂且综合度高的工作,对面向海量人脸图像信息的搜索引擎而言,使用未经实践检验的未成熟云计算框架所构建的系统,实际引擎的架设与维护成本难以控制,且稳定性差,无法满足公共安全部门的实际使用需求。近年来,由Apache基金会支持的Hadoop云计算框架(是一个分布式系统基础架构)已被Facebook、Google等国际顶尖互联网公司所采用,且已经在海量信息检索方面获得了成功,这为构建高效、易于维护与扩展的云计算人脸识别搜索引擎提供了条件。
技术实现思路
为了解决基于云计算的海量人脸识别搜索引擎开发难度高、稳定性差、难于维护的缺点,本专利技术提出一种基于Hadoop框架的人脸识别搜索引擎设计方法,以成熟的Hadoop云计算框架为基础,实现稳定高效的海量人脸识别。本专利技术首先提出一种建立高效人脸特征向量数据索引表的方法,保证该人脸识别搜索引擎的空间索引实时性与可靠性。该方法以包 含内层、中间层和外层的三层结构的云计算框架为基础,其中,内层由分布式的人脸身份信息数据表构成,用于存放海量的人脸图像、人脸特征向量以及对应的身份信息;中间层由人脸特征向量聚类索引表与聚类名单表构成,用于信息索引表的建立与维护;外层用于接收任务、人脸特征向量计算与任务分配。所述方法将利用人脸特征提取方法计算得到的海量人脸图像的人脸特征向量储存在非结构化的HBase数据库中,得到人脸身份信息数据表,利用K均值聚类算法对该表中人脸特征向量的每一维特征分别进行聚类分析后建立信息索引表,包括人脸特征向量聚类索引表和若干张聚类名单表。基于以上方法,本专利技术进一步提出一种基于Hadoop的海量人脸识别搜索引擎设计方法,所述方法是将海量人脸识别过程分解为海量数据组织和人脸特征搜索比对两个阶段。海量数据组织阶段即是建立高效人脸特征向量数据索引表的阶段,在此阶段将利用特征提取方法计算得到的海量人脸图像的特征向量储存在非结构化的HBase数据库中,得到人脸身份信息数据表,利用K均值聚类算法对该表中人脸特征向量的每一维特征分别进行聚类分析后建立信息索引表(包括一张人脸特征向量聚类索引表和若干张聚类名单表);在人脸特征搜索比对阶段,利用待比对人脸图像的特征向量的每一维特征在信息索引表中进行检索,合并检索得到的结果信息,以大大缩小需要比对的人脸数据范围,然后利用Hadoop框架中的MapReduce并行计算进行人脸特征向量对比计算,提高计算效率与均衡载荷。本专利技术构建了一种包含内层、中间层和外层的三层结构云计算框架来实现海量数据组织和人脸特征搜索比对。内层由分布式的人脸身份信息数据表构成,用于存放海量的人脸图像、人脸特征向量以及对应的身份信息;中间层由人脸特征向量聚类索引表与聚类名单表构成,用于搜索引擎的信息索引表的建立与维护;外层用于接收任务、人脸特征向量计算与任务分配。基于以上所述的三层结构云计算框架,本专利技术的海量人脸识别搜索引擎的实现包括以下步骤:1、海量数据组织。首先,利用Hadoop框架中的数据库HBase对内层数据进行组织,以键值对的形式存储人脸的图像、人脸特征向量以及对应的身份信息,实现人脸身份信息数据表的分布式存储。然后,在中间层使用K均值聚类算法对人脸身份信息数据表中的人脸特征向量进行聚类分析,建立由单个人脸特征向量聚类索引表和多个聚类名单数据表构成的信息索引表,将人脸身份信`息数据表中人脸特征向量的每一维特征值聚为N类,并建立一个含有人脸特征向量维度编号、聚类分类编号、聚类分类中心值及聚类名单表编号属性的人脸特征向量聚类索引表,同时建立多个含有人脸身份信息唯一 ID的聚类名单表。这两类表也采用HBase的键值对形式进行组织。2、人脸特征搜索比对。当外层接收到人脸识别任务时,首先通过Hadoop框架中的MapReduce方式(是一种编程模型,用于大规模数据集(大于1TB)的并行运算)计算待识别人脸图像的人脸特征向量;然后将人脸特征向量传入中间层,由中间层利用信息索引表进行索引后得到若干聚类名单表,并通过MapReduce方式将聚类名单表合并形成待比对的索引名单表;最后,内层根据索引名单表查询待比对的人脸特征向量,并通过MapReduce方式计算待识别人脸图像特征向量与待比对的人脸特征向量的距离得到一张人脸特征向量距离表,对该表按距离从小到大排序后输出搜索结果。本专利技术采用上述技术方案,具有以下有益效果:本专利技术应对构建海量人脸识别搜索引擎不需要采用昂贵的高性能工作站,并且采用经过大量实践证明的Hadoop云计算框架为基础实现,具有良好的稳定性,方法简单,易于实施。本专利技术还提供了一种高效的人脸特征向量组数据索引表方法,保证了该人脸图像识别搜索引擎的空间索引实时性与可靠性。附图说明图1:基于Hadoop的海量人脸识别搜索引擎的架构图;图2:海量数据组织即建立高效人脸特征向量数据索引表的流程图;图3:人脸识别搜索查询流程图。具体实施例方式下面结合流程图和实例进一步说明本专利技术实施方式。应当理解,此处描述的具体实施例仅用以解释本专利技术,并不用于限制本专利技术。如图1所示,为本专利技术所提出的人脸识别搜索引擎的架构图。该搜索引擎包含内层、中间层和外层三层。其中,内层由人脸身份信息数据表与人脸特征向量分布式对比计算节点1、计算节点2、计算节点3……计算节点M组成;中间层由人脸特征向量聚类索引表及若干聚类名单表数据集1、2、3……η组成,每个数据集对应I维特征;外层由人机交互查询接口与人脸特征向量计算节点1、2、3……M组成。如图2所示,为本专利技术的数据组织流程图。主要步骤分为人脸身份信息数据表的初始化、人脸特征向量聚类分析、聚类名单表的建立、人脸特征向量聚类索引表的建立及信息索引表构建。具体实施过程如下:1.人脸身份信息数 据表的建立(I)以身份信息的唯一 ID为主本文档来自技高网...
【技术保护点】
一种基于Hadoop的海量人脸识别搜索引擎的人脸特征向量数据索引表的建立方法,其特征在于:所述方法以包含内层、中间层和外层的三层结构的云计算框架为基础,其中,内层由分布式的人脸身份信息数据表构成,用于存放海量的人脸图像、人脸特征向量以及对应的身份信息;中间层由人脸特征向量聚类索引表与聚类名单表构成,用于信息索引表的建立与维护;外层用于接收任务、人脸特征向量计算与任务分配;所述方法将利用人脸特征提取方法计算得到的海量人脸图像的人脸特征向量储存在非结构化的HBase数据库中,得到人脸身份信息数据表,利用K均值聚类算法对该表中人脸特征向量的每一维特征分别进行聚类分析后建立信息索引表,包括人脸特征向量聚类索引表和若干张聚类名单表。
【技术特征摘要】
【专利技术属性】
技术研发人员:杨利平,李力,龚卫国,李伟红,李正浩,王立,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。