本发明专利技术属于跨媒体信息检索技术领域,具体为跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法与系统。本发明专利技术包括四个主要算法:人名重要性评估算法、基于Web挖掘的多模态信息发现算法、人脸集内聚度度量算法和多模态对齐组合优化算法。本发明专利技术使用相关的图像特征和文本语义处理方法,同时建立相关数学模型,对新闻图像搜索进行优化,包括通过多级别深层次的文本语义分析,有效的人脸-人名对齐评估机制,具有问题针对性的组合优化。本发明专利技术对于在大规模且多样性新闻图像基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。
【技术实现步骤摘要】
本专利技术属于跨媒体信息检索
,具体涉及一种特定媒体一多模态新闻跨媒体检索方法及系统。
技术介绍
随着网络的普及和图像设备的大众化, 迅速增强的数字采集技术与存储交付能力导致在线和离线的图像数据呈爆炸性扩增,尤其是那些带有文本标注的新闻图像资源。正因为此类信息的来源越来越丰富,使得针对新闻图像资源实施更加有效的检索、组织和分析变得非常重要。一方面,由于新闻图像及其对应的文本标注通常是以人为主题进行描述,因此这使得用户通过使用一个完善有效的检索系统来查询一个特定人的相关新闻图像成为更为紧迫的一种需求3]。而当前仅仅主要利用文本检索方式进行相应处理,即简单利用伴随新闻图像一同出现的文本标注信息与查询人名的字符匹配情况进行人脸图像返回,其所返回的检索结果中通常包含很多与该查询人名无关的人脸图像,其检索性能并不理想。因此,为尽可能检索出关于某个特定人对应的正确新闻图像资源,有必要从文本语义级别深层次分析包含该特定检索人名的文本标注的语义信息,并融合与该文本标注相对应图像的视觉信息(特别是人脸视觉信息)来提高检索性能。另一方面,由于此类多模态新闻图像信息已经越来越广泛地被应用到各种研究和工程中,利用具有明确语义信息的图像数据作为数据分析源及用于其它相关用途,因此很有必要将多模态信息所对应的底层视觉特征与高层语义特征相关联,挖掘出二者之间的相互关联关系。而当前主要通过人工标注的方式来定义和描述具有特定底层视觉特征的图像数据所对应的相关语义信息,但人工标注的方式需要耗费非常大的时间代价。同时,由于标注过程带有明显的人为主观性,可能在一定程度上导致视觉特征和语义特征之间的关联性并不是十分紧密。为更充分和高效地挖掘多模态新闻信息的底层视觉特征与高层语义特征之间的相互关联性,实现更为精确有效的跨模态人脸-人名对齐是一项十分有意义且具有挑战性的工作。而跨模态人脸-人名对齐,即将图像中具有相同或相近语义的人脸和人名进行匹配,并非一项新的工作。传统上,将人脸和人名进行关联的处理主要考虑以下两种方式,即对图像标注采用面向原始文本信息的查询操作% U' 12' 13' 14],或者通过人脸检测工具对返回图像进行排序或过滤。但仅仅通过简单的人名查询和图像标注匹配,很有可能产生许多错误结果。另一方面,当前大多数的人脸识别方法都仅仅应用在受限数据集中,而对于新闻图像而言,其中的人脸姿态和表情都有很大变化,还有低劣的图像分辨率和图像质量等原因,同时也没有足够可用和可信赖的训练集用于通过学习获得人脸分类器,这些诸多因素使得很难对新闻图像中的人脸获得令人满意的人脸识别性能和效果[18’19,20]O同时,当前越来越多的研究注意到当充分利用一种媒体中的信息时,将可能会对另一种媒体中的信息处理和分析十分有帮助,尤其是在同时考虑图像以及与它相关联的文本信息这两种媒体信息时。当文本信息(如图像对应的文本标注)伴随着视觉显示信息(如新闻图像)一同出现时,会对人脸与人名之间的关联性获取起到非常重要的作用。文本和图像信息两者之间的相互作用影响已成为跨模态人脸与人名对齐中的一个热点研究,在对齐过程中融合充分的文本分析将会对图像集的整体检索性能带来明显提升当前,对于跨模态人脸和人名对齐的研究越来越多地考虑将文本信息和图像信息相结合,以此来获得更好的检索与分析性能% 21' 22' 23]。近年来,有许多实例是利用那些伴随图像一起出现的文本信息来进行跨模态人脸和人名的对齐处理,从整体上可分为以下两种相关处理方式 (I)首先,利用文本信息进行相关检索过程,然后直接从图像的视觉特征出发,进行人脸图像的分析与识别。即,首先通过文本检索方式得到一个特定人的人脸图像候选集,之后对当前候选集中的人脸图像进行相似性评估和度量。目前主要采用一种基于图的方法来获得当前人脸候选集的一个最紧密人脸图像子集,此子集中人脸图像之间互相更加相似紧密,所得到的这些人脸图像也就是所检索的当前特定人对应的人脸图像结果集合。在此方法基础上,Ozkan等提出一种同时利用视觉和文本特征获得最紧密子图的方法来检索属于一个特定人的人脸图像。该方法基于这样一种理念,即某个人的人脸图像经常会在新闻中随着他/她的人名一同出现,尽管其中伴随着属于其他人的人脸图像或一些由所使用的人脸检测方法错误检测所带来的一些非人脸图像。Guillaumin等考虑对带有文本标注的新闻图像数据集中的两种人脸命名情况,即查找属于一个特定人的人脸图像和对数据集中所有人脸图像分配指定人名。他们首先利用初始的基于文本搜索的过程,将可能分配指定给一张人脸图像的人名限制在出现在文本标注中的人名集中,然后将分析人脸图像的视觉特征作为下一步处理。(2)同时将文本特征信息和图像视觉信息相互结合,来共同完成人脸与人名的对齐过程。即,首先通过对人脸图像进行分析处理,生成人脸图像的判别空间,并以此得到一个基于人脸图像特征的视觉模型。然后,考虑文本中的上下文信息,利用此上下文信息构造一个文本分析模型。最后,将所得到的视觉模型和文本分析模型相结合,在以成对形式出现的人名和人脸基础上,用统计模型方法进行聚类,找出属于一个确定人名的所有人脸图像,将其进行正确命名。即,同时充分考虑一个人名在对应文本上下文中所具有的可视化概率情况下,寻找算法对人脸图像进行聚类分析,获得最终的人脸人名间的对齐结果。在此方法基础上,Yang等提出一种通过探索各种线索的方法在广播新闻影片中寻找特定的人。这些线索包括出现在字幕中的人名、人脸信息、新闻主播画面与最重要字幕中的人名、及影片中人物出现的时序模式线索。该任务通过利用视频中的脚本,视频结构及视觉特征等多模态信息来实现。Everingham等解决在电视或电影材料中自动标注出现人名的问题,并证明可通过同时结合视觉和文本这些多模态信息而获得较高精确率。他们通过结合监督信息和互补的线索来将电视中的人名和人脸进行对齐。这些互补线索包括电视中的字幕、对事件的描述、及对当前正在讲话的人的识别。Pham等描述他们对新闻网站中所获得的图像和文本标注中存在的人脸和人名进行对齐的实验,所提出的将人脸和人名进行关联的方法在检索或挖掘多媒体资料中非常有价值,同时也利用视觉模型和文本模型之间的对称性进行详细的对称实验。最重要的是,他们研究通过利用文本和视觉结构信息的通用方法来预测另一种模态信息中相对应实体的存在性。在这里,特别有必要提到由Berg等所进行的研究,主要通过核主成分分析方法(Kernel Principal ComponentAnalysis, KPCA)和线性判别分析方法(Linear Discriminant Analysis, LDA)所得到一种简单的视觉模型和基于上下文所得到的语言模型进行结合17' 24]。在以成对形式出现的人名和人脸基础上,他们利用期望最大化(Expectation Maximization, EM)算法进行聚类,找出属于一个确定人名的所有人脸图像。在充分考虑一个人名在对应文本上下文中所具有的可视化概率情况下,他们对利用EM算法和最大似然估计(Maximum Estimation, ME)算法进行聚类的效果分别进行评估,并充分显示将视觉模型和语言模型结合起来会比仅用视觉模型产生更好的实验结果。由以上本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:张玥杰,吴伟,金城,薛向阳,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。