一种网页内容的地理位置预测方法及装置制造方法及图纸

技术编号:23343608 阅读:28 留言:0更新日期:2020-02-15 03:57
本发明专利技术实施例提供了一种网页内容的地理位置预测方法及装置,其中方法包括:获取待处理网页内容中的多个第一地理实体和多个第一关键词,生成地理实体集合和关键词集合,再将地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,接着在知识图谱中查找目标关键词,并确定目标关键词与该候选地理实体间对应关系的权重,然后计算候选地理实体的重要程度值,对候选地理实体进行过滤,得到过滤后的候选地理实体,将过滤后得到的候选地理实体确定为待处理网页内容的地理位置预测结果。

A method and device for predicting the location of web content

【技术实现步骤摘要】
一种网页内容的地理位置预测方法及装置
本专利技术涉及计算机
,特别是涉及一种网页内容的地理位置预测方法及装置。
技术介绍
互联网每天都会产生大量的文本资源,这些文本资源中含有大量信息,待处理网页内容预测就是挖掘文本资源中的大量信息中的位置信息,位置信息表示文本资源中与地理位置有关的名词,实现互联网文本资源到位置的映射。现有技术在进行待处理网页内容地理位置预测时,先获取一个网页页面的文本内容,利用命名实体识别方法提取出文本内容中所有地理实体,命名实体识别指识别文本中具有特定意义的实体,地理实体表示文本内容中的包含地理位置信息的名词。然后根据地理实体的词频、在文本中的位置等信息,利用一定的方法(如PageRank算法、核密度估计算法、启发式算法等)去评估每个地理实体对于文本的重要程度或者地理实体的大致集中分别区域,从而实现整篇文本内容的地理位置预测。现有技术仅提取待处理网页内容中的地理实体进行预测,没有提取网页页面文本内容中的关键词,而有些关键词中与提取出的地理实体关联密切,因此,会导致待处理网页内容地理位置预测结果不准的问题。
技术实现思路
本专利技术实施例的目的在于提供一种网页内容的地理位置预测方法及系统,用以解决网页内容地理位置预测结果不准的问题。具体技术方案如下:第一方面,本专利技术实施例提供了一种网页内容的地理位置预测方法,所述方法包括:获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的各第二地理实体间具有层级关系,所述层级关系用于表示第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算所述候选地理实体的重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。可选的,所述知识图谱的构建过程包括:获取目标文本内容,所述目标文本内容为:包含预设地名的网页页面对应的文本内容;提取所述目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及及第三地理实体间的对应关系,所述目标对应关系为:所述多个第三地理实体和所述多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系;使用递归算法从所述第三地理实体间的对应关系中提取第三地理实体间的层级关系;利用具有所述目标对应关系的第三地理实体各和第三关键词,所述目标对应关系所述第三地理实体间的对应关系以及所述层级关系,构建初始知识图谱;计算所述目标对应关系的权重,并将所述目标对应关系的权重添加至初始知识图谱中,得到所述知识图谱。可选的,所述计算所述目标对应关系的权重的步骤,包括:将一个所述目标对应关系,以及具有所述目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组;将所述第三地理实体间的对应关系,以及具有所述对应关系的两个第三地理实体,确定为一个三元组;利用第一预设表达式,计算置信度,所述置信度表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例,所述第一预设表达式为:其中,TR表示所述置信度,TC表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,TTC表示三元组总个数;利用第二预设表达式,计算各所述第二关键词的稀缺度,所述第二预设表达式为:式中,EGDA表示一个所述第二关键词的稀缺度,EC表示所述初始知识图谱的边数,其中,所述初始知识图谱中的边表示一个所述第二地理实体与一个所述第二关键词间的对应关系或所述第二地理实体间的对应关系,ED表示所述第二关键词在所述初始知识图谱中具有的边数;利用第三预设表达式,计算所述目标对应关系的权重,所述第三预设表达式为:EW=TR*EGDA式中,EW表示所述目标对应关系的权重,TR表示所述置信度,EGDA表示一个所述第二关键词的稀缺度。可选的,所述方法还包括:将所述关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词;在所述知识图谱中查找与所述匹配关键词对应的第二地理实体;将查找到的第二地理实体确定为候选地理实体,并为所述候选地理实体设置初始词频;针对确定的候选地理实体,确定所述匹配关键词与该候选地理实体间对应关系的权重;针对所述候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,所述匹配关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述匹配关键词与该候选地理实体间对应关系的权重,计算所述重要程度值。可选的,所述计算所述候选地理实体的重要程度值的步骤,包括:针对所述候选地理实体所匹配的第一地理实体,将该第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重相乘,得到乘积结果;将所述乘积结果确定为所述候选地理实体的重要程度值。可选的,所述根据预设的过滤规则,对所述候选地理实体进行过滤的步骤,包括:针对所述候选地理实体集合中的各所述候选地理实体,删除目标删除候选地理实体,所述目标删除候选地理实体为所述候选地理实体集合中所述重要程度值小于第一预设重要程度阈值的所述候选地理实体,并将最高重要程度值候选地理实体移至新的候选地理实体集合,所述最高重要程度值候选地理实体为具有最高的所述重要程度值的所述候选地理实体;针对删除所述目标删除候选地理实体及移出所述最高重要程度值候选地理实体后的本文档来自技高网...

【技术保护点】
1.一种网页内容的地理位置预测方法,其特征在于,所述方法包括:/n获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;/n生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;/n将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的第二地理实体间具有层级关系,所述层级关系用于表示各第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;/n针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;/n针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算所述候选地理实体的重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;/n根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;/n将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。/n...

【技术特征摘要】
1.一种网页内容的地理位置预测方法,其特征在于,所述方法包括:
获取待处理网页内容中的多个第一地理实体和多个第一关键词,所述第一地理实体为包含地理位置信息的名词,所述关键词为所述待处理网页内容中除所述第一地理实体以外的其他名词;
生成包含所述多个第一地理实体的名称信息和词频的地理实体集合,以及生成包含所述多个第一关键词的名称信息和词频的关键词集合;
将所述地理实体集合中的第一地理实体在知识图谱中匹配到的第二地理实体确定为候选地理实体,其中,所述知识图谱中包含所述第二地理实体与第二关键词间的对应关系,所述第二地理实体与第二关键词间的对应关系的权重以及第二地理实体间的对应关系,且所述知识图谱中的第二地理实体间具有层级关系,所述层级关系用于表示各第二地理实体间的地理范围的包含关系,所述第二关键词为所述知识图谱中除所述第二地理实体以外的其他名词;
针对得到的候选地理实体,在所述知识图谱中查找目标关键词,所述目标关键词为与所述候选地理实体对应的、且在所述关键词集合中具有相同名称的第一关键词的第二关键词,并确定所述目标关键词与该候选地理实体间对应关系的权重;
针对所述候选地理实体以及该候选地理实体对应的目标关键词,基于该候选地理实体所匹配的第一地理实体在所述地理实体集合中的词频,所述目标关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述目标关键词与该候选地理实体间对应关系的权重,计算所述候选地理实体的重要程度值,所述候选地理实体的重要程度值用于衡量该候选地理实体的重要程度;
根据预设的过滤规则,对所述候选地理实体进行过滤,得到过滤后的候选地理实体,所述过滤规则基于所述候选地理实体的重要程度值,及所述候选地理实体间的层级关系确定;
将过滤后得到的候选地理实体确定为所述待处理网页内容的地理位置预测结果。


2.根据权利要求1所述的方法,其特征在于,所述知识图谱的构建过程包括:
获取目标文本内容,所述目标文本内容为:包含预设地名的网页页面对应的文本内容;
提取所述目标文本内容中的多个第三地理实体、多个第三关键词、目标对应关系以及第三地理实体间的对应关系,所述目标对应关系为:所述多个第三地理实体和所述多个第三关键词中,具有关联属性的第三地理实体和第三关键词之间的关系;
使用递归算法从所述第三地理实体间的对应关系中提取第三地理实体间的层级关系;
利用具有所述目标对应关系的第三地理实体和第三关键词,所述目标对应关系,所述第三地理实体间的对应关系以及所述层级关系,构建初始知识图谱;
计算所述目标对应关系的权重,并将所述目标对应关系的权重添加至初始知识图谱中,得到所述知识图谱。


3.根据权利要求2所述的方法,其特征在于,所述计算所述目标对应关系的权重的步骤,包括:
将一个所述目标对应关系,以及具有所述目标对应关系的一个第三地理实体和一个第三关键词,确定为一个三元组;
将所述第三地理实体间的对应关系,以及具有所述对应关系的两个第三地理实体,确定为一个三元组;
利用第一预设表达式,计算置信度,所述置信度表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,在三元组总个数中的比例,
所述第一预设表达式为:



式中,TR表示所述置信度,TC表示具有相同目标对应关系、相同第三地理实体及相同第三关键词的三元组的个数,TTC表示三元组总个数;
利用第二预设表达式,计算各所述第二关键词的稀缺度,所述第二预设表达式为:



式中,EGDA表示一个所述第二关键词的稀缺度,EC表示所述初始知识图谱的边数,其中,所述初始知识图谱中的边表示一个所述第二地理实体与一个所述第二关键词间的对应关系或所述第二地理实体间的对应关系,ED表示所述第二关键词在所述初始知识图谱中具有的边数;
利用第三预设表达式,计算所述目标对应关系的权重,所述第三预设表达式为:
EW=TR*EGDA
式中,EW表示所述目标对应关系的权重,TR表示所述置信度,EGDA表示一个所述第二关键词的稀缺度。


4.根据权利要求1所述的方法,其特征在于,在未获取到所述第一地理实体情况下,所述方法还包括:
将所述关键词集合中的第一关键词与知识图谱中的第二关键词进行匹配,得到匹配关键词;
在所述知识图谱中查找与所述匹配关键词对应的第二地理实体;
将查找到的第二地理实体确定为候选地理实体,并为所述候选地理实体设置初始词频;
针对确定的候选地理实体,确定所述匹配关键词与该候选地理实体间对应关系的权重;
针对所述候选地理实体以及该候选地理实体对应的匹配关键词,基于该候选地理实体的初始词频,所述匹配关键词在所述关键词集合中具有相同名称的第一关键词的词频,以及所述匹配关键词与该候选地理实体间对应关系的权重,计算所述重要程度值。

【专利技术属性】
技术研发人员:黄小红李丹丹张沛谢坤化佳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1