【技术实现步骤摘要】
挖掘相关实体词的关系关键词的方法和装置及其应用
本专利技术涉及计算机
,特别涉及一种挖掘相关实体词的关系关键词的方法和装置及其应用。
技术介绍
随着信息技术和计算机技术的不断发展,搜索引擎已经成为人们获取信息的主要工具,用户输入搜索请求(query)后,搜索引擎能够向用户返回与该query对应的搜索结果。为了更加方便用户获取更多信息提高资源利用率,往往在用户输入query后,希望搜索引擎能够在返回搜索结果的同时能够返回与该query所包含词语相关的词语,通常特指与query所包含实体词相关的其他实体词。更进一步为了方便用户浏览和选择相关实体词,希 望搜索引擎能够对实体词及其相关实体词之间的关系进行明确。在现有的实现方法中,通常预先定义好待确定的关系类型,即预先设定若干关系类型,例如“父子”、“夫妻”、“朋友”等,然后确定实体词及其相关实体词之间符合哪种关系类型。然而,现实中很多实体词之间的关系是不能够表达或概括成明确的关系类型的,例如“张学友”和“刘德华”、“李宇春”和“张靓颖”,“易中天”和“于丹”,采用传统的关系类型无法描述这些实体词之间的关系,使得按照传统关系类型确定出的实体词之间的关系准确性很低。
技术实现思路
有鉴于此,本专利技术提供了一种确定相关实体词的关系关键词的方法和装置及其应用,以便于提高相关实体词之间关系描述的准确性。具体技术方案如下一种挖掘相关实体词的关系关键词的方法,该方法包括 A、挖掘实体词el的相关实体词e2,将所述el及其相关实体词e2存储在数据库中;B、在挖掘所述e2所使用的资源,和/或,在由所述el和所述e2构成一个搜 ...
【技术保护点】
【技术特征摘要】
1.一种挖掘相关实体词的关系关键词的方法,其特征在于,该方法包括 A、挖掘实体词el的相关实体词e2,将所述el及其相关实体词e2存储在数据库中; B、在挖掘所述e2所使用的资源,和/或,在由所述el和所述e2构成ー个搜索请求query所对应的捜索结果中,对距离所述el和所述e2设定距离范围内的各词语进行统计,所述统计至少包括对所述各词语在所述距离范围内出现次数的统计; C、利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述el和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中,其中M为预设的正整数。2.根据权利要求I所述的方法,其特征在于,所述实体词的类型包括人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。3.根据权利要求I所述的方法,其特征在于,所述步骤A中挖掘实体词el的相关实体词e2具体包括 Al、采用以下方式中的至少ー种确定所述el的候选相关实体词 第一种方式、确定在语料库中与所述el共现在长度为L的窗口中的次数值排在前NI个的实体词作为所述el的候选相关实体词,其中NI为预设的自然数; 第ニ种方式、确定与所述eI在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为所述el的候选相关实体词,其中N2为预设的自然数; 第三种方式、确定特征向量与所述el的特征向量的相似度排在前N3个的实体词作为所述el的候选相关实体词,其中N3为预设的自然数; 第四种方式、确定在百科类数据源中作为主题词的所述el的相关词条中的实体词作为所述el的候选相关实体词; A2、对步骤Al确定出所述el的候选相关实体词进行打分,选择打分值排在前N4个的候选相关实体词作为所述el的相关实体词,所述e2为所述el的相关实体词中的ー个,其中N4为预设的正整数。4.根据权利要求3所述的方法,其特征在于,实体词特征向量的确定方式为 基于语料库对实体词进行上下文统计,选择距离实体词设定距离范围内的词语的出现次数达到预设的特征选择条件的词语构成该实体词的特征向量; 其中所述特征选择条件包括出现次数达到预设阈值或者出现次数排在前Ml个,Ml为预设的正整数。5.根据权利要求3或4所述的方法,其特征在于,所述步骤A2中采用如下公式对所述el的候选相关实体词进行打分scorel (el, = Y (el, + y 2s2 (el, + y 3s3 (el, + y 4s4 (el, e^ + y 5s5(el,θ ) + Y 6s6(el, ej); 其中,scorel (el, 为所述el的候选相关实体词Gi的打分值,Y ^ Y 2、Y 3、Y 4、Y 5和Y6为预设的权值參数; Sl(el, e,)由所述ち和所述el在语料库中共现在长度为L的窗口中的次数值确定; S2 (el, 由所述ei和所述el在用户搜索日志中共现在相同query中的次数值确定; S3(el, 由所述61的特征向量和所述el的特征向量的相似度确定; S4 (el,e,)体现所述ち作为百科类数据源中所述el的相关词条的分值,采用预设值; S5(el, 由在利用所述ei和所述el构成的query进行搜索得到的其中M2个搜索结果中,所述ei和所述el共现在ー个句子中的次数占所述M2个搜索结果中句子总数的比例确定,其中M2为预设的正整数; s6(el, e,)由所述ち作为各实体的候选相关实体词的次数确定。6.根据权利要求I所述的方法,其特征在干,如果在由所述el和所述e2构成ー个query所对应的捜索结果中,对距离所述el和所述e2设定距离范围内的各词语进行统计,则所述统计还包括距离所述el的距离的统计以及距离所述e2的距离的统计; 在所述步骤C中采用如下公式对所述各词语进行打分7.根据权利要求3所述的方法,其特征在于,如果在挖掘所述e2所使用的资源对距离所述el和所述e2设定距离范围内的各词语进行统计,且采用所述第一种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分8.根据权利要求3所述的方法,其特征在于,如果在挖掘所述e2所使用的资源对距离所述el和所述e2设定距离范围内的各词语进行统计,且采用所述第二种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分9.根据权利要求4所述的方法,其特征在于,如果在挖掘所述e2所使用的资源对距离所述el和所述e2设定距离范围内的各词语进行统计,且采用所述第三种方式挖掘所述e2,则所述步骤C中采用如下公式对所述各词语进行打分10.根据权利要求6至9任ー权项所述的方法,其特征在干,如果在挖掘所述e2所使用的资源,以及,在由所述el和所述e2构成ー个query所对应的搜索结果中,对距离所述el和所述e2设定距离范围内的各词语进行统计,则利用统计结果对所述各词语打分为 分别利用在挖掘所述e2所使用的资源对应的统计结果对所述各词语进行打分,以及在由所述el和所述e2构成ー个query所对应的搜索结果中对应的统计结果对所述各词语进行打分,将分别获得的打分值进行合并,得到最終所述各词语的打分值。11.根据权利要求I所述的方法,其特征在于,在对距离所述el和所述e2设定距离范围内的各词语进行统计之前,还包括 对距离所述el和所述e2设定距离范围内的各词语进行过滤处理,所述过滤处理包括以下所列的至少ー种将包含在预设的停用词表中的词语过滤掉,或者,将具有预设词性的词语过滤掉,或者,将与所述el和所述e2具有相同实体类型的词语过滤掉。12.ー种搜索引擎中的智能导航方法,其特征在于,该方法包括 接收到用户输入的包含实体词el的搜索请求query后,查找存储有所述el及所述el的相关实体词e2、以及所述el和e2的关系关键词的数据库,确定所述el的相关实体词e2、以及所述el和e2的关系关键词; 在向所述用户展现所述query的捜索结果的同吋,向所述用户展现所述el的相关实体词e2、以及所述el和e2的关系关键词; 其中所述el的相关实体词e2、以及所述el和e2的关系关键词是通过权利要求I所述的方法挖掘的。13.根据权利要求12所述的方法,其特征在于,所述el的相关实体词e2、以及所述el和e2的关系关键词展现在搜索结果页面的两侧或下方。14.根据权利要求12所述的方法,其特征在于,该方法还包括 如果获取到用户点击所述相关实体e2,则向所述用户返回所述e2作为query对应的搜索结果,或者向所述用户返回所述el和e2共同构成的query对应的搜索结果。15.—种百科类数据的相关词条补充方法,其特征在于,该方法包括 利用百科类数据的实体主题词el,查找存储有所述el及所述el的相关实体词e2、以及所述el和e2的关系关键词的数据库,确定el的相关实体词e2、以及所述el和e2的关系关键词; 将所述e2添加入所述百科类数据中所述el的相关词条,并标注所述el和所述e2的关系关键词或者对所述相关词条进行基于关系关键词的聚类; 其中所述el的相关实体词e2、以及所述el和e2的关系关键词是通过权利要求I所述的方法挖掘的。16.根据权利要求15所述的方法,其特征在于,所述e2在所述相关词条中的排序由权利要求I中e2的打分值决定。17.—种挖掘相关实体词的关系关键词的装置,其特征在于,该装置包括相关词挖掘単元、统计单元和关系确定单元; 所述相关词挖掘単元,用于挖掘实体词el的相关实体词e2,将所述el及其相关实体词e2存储在数据库中; 所述统计単元,用于在所述相关词挖掘单元挖掘所述e2所使用的资源,和/或,在由所述el和所述e2构成ー个搜索请求query所对应的搜索结果中,对距离所述el和所述e2设定距离范围内的各词语进行统计,所述统计至少包括对所述各词语在所述距离范围内出现次数的统计; 所述关系确定单元,用于利用统计结果对所述各词语进行打分,选择打分值排在前M个的词语作为所述el和所述e2的关系关键词,并将所述关系关键词记录在所述数据库中,其中M为预设的正整数。18.根据权利要求17所述的装置,其特征在于,所述实体词的类型包括人名、地名、机构名、书名、歌名、影视剧名、产品名或者品牌名。19.根据权利要求17所述的装置,其特征在于,所述相关词挖掘単元具体包括候选词确定子単元和相关词选择子单元; 所述候选词确定子単元,用于采用以下方式中的至少ー种确定所述el的候选相关实体词 第一种方式、确定在语料库中与所述el共现在长度为L的窗口中的次数值排在前NI个的实体词作为所述el的候选相关实体词,其中NI为预设的自然数; 第ニ种方式、确定与所述eI在用户搜索日志中共现在相同query中的次数值排在前N2个的实体词作为所述el的候选相关实体词,其中N2为预设的自然数; 第三种方式、确定特征向量与所述el的特征向量的相似度排在前N3个的实体词作为所述el的候选相关实体词,其中N3为预设的自然数;...
【专利技术属性】
技术研发人员:赵世奇,李彦宏,方高林,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。