一种实体消歧方法及装置制造方法及图纸

技术编号:14740416 阅读:53 留言:0更新日期:2017-03-01 14:50
本发明专利技术实施例公开了一种实体消歧方法及装置,所述方法包括:针对目标实体,从数据库抽取所述目标实体的不同义项;针对每一义项,从所述数据库中抽取该义项的初始特征数据;根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。利用本发明专利技术实施例,提高了搜索的准确度。

【技术实现步骤摘要】

本专利技术实体消歧
,特别涉及一种实体消歧方法及装置
技术介绍
实体消歧是为了解决自然语言中广泛存在的命名实体(简称“实体”)的歧义(一词多义)问题,属于词义消歧的一部分,是自然语言处理中重要的基础性工作。在视频搜索引擎中,存在大量的影视剧名的实体,而影视剧名存在大量的歧义,即一个影视剧名对应多个影视剧实体(例如:“非诚勿扰”既是一部电影的名称,也是一档综艺节目的名称)。每一个不同概念意义事物的叙述内容称为义项,如果自然语言处理程序能够对歧义实体消歧,有效的区分实体的真正义项,对于视频搜索引擎的优化有很大的帮助,例如知道用户输入的包含歧义实体词的查询中歧义实体的真正义项,搜索返回该义项的结果,使得搜索更加精准,也能很大程度提高用户体验。实体消歧可以分为有监督学习方法和无监督学习方法。前者从标注了义项的大规模训练数据中抽取歧义词义项的特征属性,然后根据实体词在文本中出现位置的上下文,给出匹配度最高的歧义词义项作为消歧的结果,而后者对大量未标注义项的语料中通过聚类方法将歧义词聚类出不同的义项,同一聚类类别中的特征作为该义项的特征。对于有监督学习方法,需要对训练数据做大量地人工标注工作,如:确定歧义词存在的候选义项,以及标注大量用于抽取歧义词义项特征的训练数据,这无疑需要大量的人工成本,而且有监督学习方法无法很好解决没有出现在标注集中的歧义词的消歧。而基于聚类的无监督学习方法,最终的类别(义项)数是不确定的,聚类类别与实际义项也无法一一对应,导致基于无监督学习方法的消歧准确度不高,进而导致搜索的准确度不高。
技术实现思路
本专利技术实施例的目的在于提供一种实体消歧方法及装置,以提高搜索的准确度。为达到上述目的,本专利技术实施例公开了一种实体消歧方法,方法包括:针对目标实体,从数据库抽取所述目标实体的不同义项;针对每一义项,从所述数据库中抽取该义项的初始特征数据;根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。较佳的,所述根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧,包括:根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。较佳的,所述根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧,包括:根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。较佳的,所述预先构建的用于实体消歧的分类模型为:向量空间模型。较佳的,所述根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征,包括:根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,对每一义项对应的所述第一数据抽取特征。为达到上述目的,本专利技术实施例公开了一种实体消歧装置,装置包括:第一抽取模块,用于针对目标实体,从数据库抽取所述目标实体的不同义项;第二抽取模块,用于针对每一义项,从所述数据库中抽取该义项的初始特征数据;消歧模块,用于根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。较佳的,所述消歧模块,包括:分类单元,用于根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;抽取单元,用于根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;第一确定单元,用于根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;第二确定单元,用于将所确定的类别对应的义项,确定为所述目标实体的实际义项。较佳的,所述消歧模块,具体用于:根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。较佳的,所述预先构建的用于实体消歧的分类模型为:向量空间模型。较佳的,所述抽取单元,具体用于:根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,对每一义项对应的所述第一数据抽取特征。由上述的技术方案可见,本专利技术实施例提供的一种实体消歧方法及装置,针对目标实体,从数据库抽取所述目标实体的不同义项;针对每一义项,从所述数据库中抽取该义项的初始特征数据;根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。可见,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以自动抽取目标实体的不同义项,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种实体消歧方法的流程示意图;图2为本专利技术实施例提供的一种实体消歧装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面首先对本专利技术实施例提供的一种实体消歧方法进行详细说明。参见图1,图1为本专利技术实施例提供的一种实体消歧方法的流程示意图,可以包括如下步骤:S101,针对目标实体,从数据库抽取所述目标实体的不同义项;具体的,命名实体(简称实体)就是人名、机构名、地名以及其他所有以名称为标识的实体。其中,目标实体可以为音乐实体、影视剧实体等等。下面以影视剧实体为例进行说明。针对目标影视剧实体,可以从数据库中获取该影视剧实体的名称,抽取该影视剧实体名称(W)的不同影视剧实体,将抽取得到的不同影视剧实体确定为该影视剧实体名称的不同义项。例如,W#1表示该影视剧实体名称W的第一个义项、W#2表示该影视剧实体名称W的第二个义项,以此类推。其中,数据库可以为视频数据库。具体的,在获取目标影视剧实体的名称时,有些影视剧可能存在多个名称,或者有别名、简称等。例如,江苏卫视的综艺节目《非诚勿扰》在视频数据库中的完整名称为“缘来非诚勿扰”,而人们习惯成为“非诚勿扰”,所以在视频标题中或者用户查询词中的“非诚勿扰”很多都是指的“缘来非诚勿扰”,这种情况下可以获取该影视剧实体的别名“非诚勿扰”,确定为目标影视剧实体的名称。具体的,有的影视剧实体名称包含一些附加信息,例如有一条影视剧实体的名称为“笑傲江湖吕颂贤版”,而该影视剧实体的别名中没有“笑傲江湖”,因此如果不做特殊处理,该条实体无法成为一个义项。本专利技术实施例可以使用本文档来自技高网...
一种实体消歧方法及装置

【技术保护点】
一种实体消歧方法,其特征在于,所述方法包括:针对目标实体,从数据库抽取所述目标实体的不同义项;针对每一义项,从所述数据库中抽取该义项的初始特征数据;根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。

【技术特征摘要】
1.一种实体消歧方法,其特征在于,所述方法包括:针对目标实体,从数据库抽取所述目标实体的不同义项;针对每一义项,从所述数据库中抽取该义项的初始特征数据;根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧。2.根据权利要求1所述的方法,其特征在于,所述根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧,包括:根据所述分类模型,对所述数据库中包含所述目标实体的数据进行分类,得到不同义项对应的第一数据;根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征;根据所述分类模型、所述初始特征数据以及抽取的特征的数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。3.根据权利要求1所述的方法,其特征在于,所述根据预先构建的用于实体消歧的分类模型以及所述初始特征数据,对所述目标实体进行消歧,包括:根据所述分类模型以及所述初始特征数据,确定所述目标实体的类别;将所确定的类别对应的义项,确定为所述目标实体的实际义项。4.根据权利要求1所述的方法,其特征在于,所述预先构建的用于实体消歧的分类模型为:向量空间模型。5.根据权利要求2所述的方法,其特征在于,所述根据预先构建的特征抽取模型,对每一义项对应的所述第一数据抽取特征,包括:根据预先构建的特征抽取模型,利用卡方检验以及用于信息检索与数据挖掘的加权技术,...

【专利技术属性】
技术研发人员:刘兵苗艳军
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1