图像聚类方法及装置制造方法及图纸

技术编号:14756397 阅读:83 留言:0更新日期:2017-03-02 22:59
本发明专利技术公开了一种聚类方法及装置,属于计算机领域。所述方法包括:从视频中获取N个目标人脸图像,N个目标人脸图像分别为N个不同人脸的图像,N为大于或等于1的自然数;分别提取N个目标人脸图像的图像特征,各个目标人脸图像的图像特征包括各个目标人脸图像的人脸特征和时空特征,各个目标人脸图像的时空特征用于指示各个目标人脸图像在视频中出现的时间和各个目标人脸图像在视频画面中的空间位置;基于N个目标人脸图像的图像特征,对N个目标人脸图像进行聚类,得到K个目标人脸图像集,K为大于或等于1且小于或等于N的自然数。本发明专利技术可以避免仅基于人脸特征进行聚类时的不准确性,从而提高该N个目标人脸图像的聚类准确度。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种图像聚类方法及装置
技术介绍
随着计算机技术的快速发展,智能手机、摄像机等具有拍摄功能的终端逐渐走入用户的生活中,用户可以通过这些终端进行拍摄得到视频,且为了便于分辨视频中出现的人物,往往需要对视频中包含的人脸图像进行身份标注。用户在对视频中包含的人脸图像进行身份标注时,可以先对视频中包含的多个人脸图像进行聚类,进而根据已聚类的多个人脸图像来进行身份标注,以提高标注效率。目前,提供的图像聚类方法为:终端对视频中的多个人脸图像进行识别,得到该多个人脸图像的人脸特征,基于该多个人脸图像的人脸特征,对该多个人脸图像进行聚类,以将同一人脸图像聚合到同一图像集中。然而,由于视频中出现的人物通常较多,从而导致视频中包含的多个人脸图像的人脸特征可能较为相似,因此,基于人脸图像的人脸特征来对该多个人脸图像进行聚类的准确度较低。
技术实现思路
为了解决相关技术的问题,本专利技术实施例提供了一种图像聚类方法及装置。所述技术方案如下:一方面,提供了一种图像聚类方法,所述方法包括:从视频中获取N个目标人脸图像,所述N个目标人脸图像分别为N个不同人脸的图像,所述N为大于或等于1的自然数;分别提取所述N个目标人脸图像的图像特征,各个目标人脸图像的图像特征包括所述各个目标人脸图像的人脸特征和时空特征,所述各个目标人脸图像的时空特征用于指示所述各个目标人脸图像在所述视频中出现的时间和所述各个目标人脸图像在视频画面中的空间位置;基于所述N个目标人脸图像的图像特征,对所述N个目标人脸图像进行聚类,得到K个目标人脸图像集,所述K为大于或等于1且小于或等于所述N的自然数。另一方面,提供了一种图像聚类装置,所述装置包括:第一获取模块,用于从视频中获取N个目标人脸图像,所述N个目标人脸图像分别为N个不同人脸的图像,所述N为大于或等于1的自然数;第二获取模块,用于分别提取所述N个目标人脸图像的图像特征,各个目标人脸图像的图像特征包括所述各个目标人脸图像的人脸特征和时空特征,所述各个目标人脸图像的时空特征用于指示所述各个目标人脸图像在所述视频中出现的时间和所述各个目标人脸图像在视频画面中的空间位置;聚类模块,用于基于所述N个目标人脸图像的图像特征,对所述N个目标人脸图像进行聚类,得到K个目标人脸图像集,所述K为大于或等于1且小于或等于所述N的自然数。本专利技术实施例提供的技术方案带来的有益效果是:在本专利技术实施例中,从视频中获取N个目标人脸图像,并分别提取该N个目标人脸图像的图像特征,之后,基于该N个目标人脸图像的图像特征,对该N个目标人脸图像进行聚类,得到K个目标人脸图像集,由于该目标人脸图像的图像特征包括目标人脸图像的人脸特征和时空特征,因此,即使在各个目标人脸图像的人脸特征较为相似的情况下,本专利技术实施例也可以以各个目标人脸图像的时空特征,也即是以各个目标人脸图像在该视频中出现的时间和该目标人脸图像在视频画面中的位置作为依据,来对该N个目标人脸图像进行准确聚类,从而可以避免仅基于人脸特征进行聚类时的不准确性,提高该N个目标人脸图像的聚类准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1A是本专利技术实施例提供的一种图像聚类方法流程图;图1B是本专利技术实施例提供的另一种图像聚类方法流程图;图2A是本专利技术实施例提供的一种图像聚类装置结构示意图;图2B是本专利技术实施例提供的一种第一获取模块结构示意图;图2C是本专利技术实施例提供的一种聚类模块结构示意图;图3是本专利技术实施例提供的另一种图像聚类装置结构示意图;图4是本专利技术实施例提供的又一种图像聚类装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在对本专利技术实施例进行详细地解释说明之前,先对本专利技术实施例的应用场景予以说明。为了便于用户分辨视频中出现的人物,往往需要对该视频中包含的人脸图像进行身份标注,且为了提高标注效率,在对该视频中包含的人脸图像进行身份标注之前,可以先对该视频中包含的人脸图像进行聚类,进而根据聚类得到的多个人脸图像集来完成身份标注。相关技术中,在进行图像聚类时,仅基于人脸图像的人脸特征来进行聚类,然而,当该视频中出现的人物较多时,该视频中包含的多个人脸图像的人脸特征可能较为相似,从而导致仅基于人脸图像的人脸特征来对该多个人脸图像进行聚类的准确度较低。因此,本专利技术实施例提供了一种图像聚类方法,来提高人脸图像的聚类准确度。需要说明的是,本专利技术实施例提供的图像聚类方法可以应用于图像聚类装置中,该图像聚类装置可以为终端或者服务器,该终端可以是移动电话、计算机、消息收发设备、平板设备、个人数字助理等,该服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群等,本专利技术实施例对此不做具体限定。图1A是本专利技术实施例提供的一种图像聚类方法流程图。该方法用于图像聚类装置中,参见图1A,该方法包括:步骤101:确定视频包括的每一帧图像中的动态区域。需要说明的是,当需要对某一视频包含的人脸图像进行聚类时,可以先确定该视频包括的每一帧图像中的动态区域,以便后续可以基于该视频包括的每一帧图像的动态区域来对该视频进行人脸检测与跟踪。具体地,确定视频包括的每一帧图像中的动态区域的操作可以包括如下步骤(1)-(2):(1)、对于该视频包括的每一帧图像,从该视频中获取与该帧图像相邻的上一帧图像,确定该帧图像中每个像素点的像素值与该上一帧图像中对应位置上的像素点的像素值之间的像素差,得到多个像素差。其中,可以通过如下第一公式来确定该帧图像中每个像素点的像素值与该上一帧图像中对应位置上的像素点的像素值之间的像素差;第一公式为:ΔI(x,y)=|It(x,y)-It-1(x,y)|需要说明的是,It为该帧图像,It-1为该上一帧图像,ΔI(x,y)为It中每个像素点的像素值与It-1中对应位置上的像素点的像素值之间的像素差,It(x,y)为It中每个像素点的像素值,It-1(x,y)为It-1中每个像素点的像素值,|It(x,y)-It-1(x,y)|为It(x,y)减去It-1(x,y)得到的数值的绝对值。(2)、基于该多个像素差,确定该帧图像中的动态区域。具体地,确定多个第一个数和多个第二个数,该多个第一个数中的每个第一个数为该多个像素差中每列大于或等于第一阈值的像素差的个数,该多个第二个数中的每个第二个数为该多个像素差中每行大于或等于第一阈值的像素差的个数;确定多个第一比例和多个第二比例,该多个第一比例为该多个第一个数分别与该多个像素差中大于或等于第一阈值的像素差的总个数之间的比例,该多个第二比例为该多个第二个数分别与该多个像素差中大于或等于第一阈值的像素差的总个数之间的比例;基于该多个第一比例,生成第一投影直方图,并确定该第一投影直方图的双侧α分位数,该α大于或等于0且小于1;基于该多个第二比例,生成第二投影直方图,并确定该第二投影直方图的双侧α分位数;将该第一投影直方图的双侧α分位数与该第二投影直方图的双侧α分位本文档来自技高网...
图像聚类方法及装置

【技术保护点】
一种图像聚类方法,其特征在于,所述方法包括:从视频中获取N个目标人脸图像,所述N个目标人脸图像分别为N个不同人脸的图像,所述N为大于或等于1的自然数;分别提取所述N个目标人脸图像的图像特征,各个目标人脸图像的图像特征包括所述各个目标人脸图像的人脸特征和时空特征,所述各个目标人脸图像的时空特征用于指示所述各个目标人脸图像在所述视频中出现的时间和所述各个目标人脸图像在视频画面中的空间位置;基于所述N个目标人脸图像的图像特征,对所述N个目标人脸图像进行聚类,得到K个目标人脸图像集,所述K为大于或等于1且小于或等于所述N的自然数。

【技术特征摘要】
1.一种图像聚类方法,其特征在于,所述方法包括:从视频中获取N个目标人脸图像,所述N个目标人脸图像分别为N个不同人脸的图像,所述N为大于或等于1的自然数;分别提取所述N个目标人脸图像的图像特征,各个目标人脸图像的图像特征包括所述各个目标人脸图像的人脸特征和时空特征,所述各个目标人脸图像的时空特征用于指示所述各个目标人脸图像在所述视频中出现的时间和所述各个目标人脸图像在视频画面中的空间位置;基于所述N个目标人脸图像的图像特征,对所述N个目标人脸图像进行聚类,得到K个目标人脸图像集,所述K为大于或等于1且小于或等于所述N的自然数。2.如权利要求1所述的方法,其特征在于,所述从视频中获取N个目标人脸图像,包括:确定所述视频包括的每一帧图像中的动态区域;基于所述视频包括的每一帧图像中的动态区域,对所述视频进行人脸检测与跟踪,得到多个人脸跟踪片段;将所述多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段,以得到N个人脸跟踪片段;将所述N个人脸跟踪片段中每个人脸跟踪片段包含的人脸图像确定为所述目标人脸图像。3.如权利要求2所述的方法,其特征在于,所述确定所述视频包括的每一帧图像中的动态区域,包括:对于所述视频包括的每一帧图像,从所述视频中获取与所述帧图像相邻的上一帧图像;确定所述帧图像中每个像素点的像素值与所述上一帧图像中对应位置上的像素点的像素值之间的像素差,得到多个像素差;基于所述多个像素差,确定所述帧图像中的动态区域。4.如权利要求3所述的方法,其特征在于,所述基于所述多个像素差,确定所述帧图像中的动态区域,包括:确定多个第一个数和多个第二个数,所述多个第一个数中的每个第一个数为所述多个像素差中每列大于或等于第一阈值的像素差的个数,所述多个第二个数中的每个第二个数为所述多个像素差中每行大于或等于所述第一阈值的像素差的个数;确定多个第一比例和多个第二比例,所述多个第一比例为所述多个第一个数分别与所述多个像素差中大于或等于所述第一阈值的像素差的总个数之间的比例,所述多个第二比例为所述多个第二个数分别与所述多个像素差中大于或等于所述第一阈值的像素差的总个数之间的比例;基于所述多个第一比例,生成第一投影直方图,并确定所述第一投影直方图的双侧α分位数,所述α大于或等于0且小于1;基于所述多个第二比例,生成第二投影直方图,并确定所述第二投影直方图的双侧α分位数;将所述第一投影直方图的双侧α分位数与所述第二投影直方图的双侧α分位数组成的区域确定为所述帧图像中的动态区域。5.如权利要求1所述的方法,其特征在于,所述基于所述N个目标人脸图像的图像特征,对所述N个目标人脸图像进行聚类,得到K个目标人脸图像集,包括:基于所述N个目标人脸图像的图像特征,确定K个聚类特征,所述K个聚类特征中的每个聚类特征包括人脸特征和时空特征;将所述N个目标人脸图像,以所述K个聚类特征为聚类中心进行聚类,得到K个图像集;确定所述K个图像集的聚类特征;判断所述K个图像集的聚类特征中是否存在未收敛的聚类特征;当所述K个图像集的聚类特征中存在未收敛的聚类特征时,将所述K个聚类特征设置为所述K个图像集的聚类特征,并返回所述将所述N个目标人脸图像,以所述K个聚类特征为聚类中心进行聚类,得到K个图像集的步骤,直至所述K个图像集的聚类特征均收敛为止;将以所述均收敛的K个图像集的聚类特征为聚类中心进行聚类得到的K个图像集确定为所述K个目标人脸图像集。6.如权利要求5所述的方法,其特征在于,所述将所述N个目标人脸图像,以所述K个聚类特征为聚类中心进行聚类,得到K个图像集,包括:对于所述N个目标人脸图像中的每个目标人脸图像,分别确定所述目标人脸图像的图像特征与所述K个聚类特征之间的距离;将所述目标人脸图像聚合到以目标聚类特征为聚类中心的图像集中,所述目标聚类特征为所述K个聚类特征中与所述目标人脸图像的图像特征之间的距离最小的聚类特征。7.如权利要求6所述的方法,其特征在于,所述分别确定所述目标人脸图像的图像特征与所述K个聚类特征之间的距离,包括:对于所述K个聚类特征中的每个聚类特征,确定所述目标人脸图像的人脸特征与所述聚类特征包括的人脸特征之间的距离,得到第一距离;确定所述目标人脸图像的时空特征与所述聚类特征包括的时空特征之间的距离,得到第二距离;将所述第一距离与指定数值倍的所述第二距离相加,得到所述目标人脸图像的图像特征与所述聚类特征之间的距离。8.如权利要求5所述的方法,其特征在于,所述确定所述K个图像集的聚类特征,包括:当所述N个目标人脸图像是从N个人脸跟踪片段中分别获取得到时,对于所述K个图像集中的每个图像集,将所述图像集包括的每个目标人脸图像的人脸特征与所述目标人脸图像所属的人脸跟踪片段的播放时长相乘得到的数值进行累加,得到第一数值;将所述图像集包括的每个目标人脸图像所属的人脸跟踪片段的播放时长进行累加,得到第二数值;将所述第一数值除以所述第二数值,得到所述图像集的人脸特征;将所述图像集的人脸特征和所述图像集包括的目标人脸图像的时空特征确定为所述图像集的聚类特征。9.一种图像聚类装置,其特征在于,所述装置包括:第一...

【专利技术属性】
技术研发人员:李绍欣张亿皓于佳骏陈志博李季檩吴永坚黄飞跃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1