一种融合浅层语义信息的图模型过滤方法技术

技术编号:24938154 阅读:29 留言:0更新日期:2020-07-17 20:58
本发明专利技术提供了一种融合浅层语义信息的图模型过滤方法,该方法包括:将中文指称输入指称扩展方法,得到精准完整的实体指称;将实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,获得实体指称的候选实体列表;将候选实体列表输入融合浅层语义信息的图模型过滤方法中,得到过滤后的候选实体列表;将过滤后的候选实体列表存入数据库,为实体消歧模块做准备。本发明专利技术通过融合浅层语义信息计算候选实体和实体指称上下文相似度获得文本相似度作为过滤算法的权重因子,并利用基于图模型出入度算法计算候选实体相关度作为过滤算法的权重因子,最后融合两个权重因子得到综合得分对候选实体进行排列,降低了实体消歧误差。

【技术实现步骤摘要】
一种融合浅层语义信息的图模型过滤方法
本专利技术涉及实体链接
,尤其涉及一种融合浅层语义信息的图模型过滤方法。
技术介绍
在大数据时代,文本资源是人们获取信息的重要途径,但由于自然语言处理中广泛存在着一词多义和多词一义的情况,故如何让机器理解实体的歧义和多样性,精准的为用户提供检索内容,是自然语言处理亟待解决的难题之一。实体链接处理各种非结构化/半结构化的输入,使用多种技术,提取各种类型的实体,并将这些信息与现有知识图谱进行集成。假设给定一段文本(如“在旧金山的发布会上,苹果为开发者推出新编程语言Swift”),一个实体链接系统包括如下研究内容:①识别文档中的目标指称(mention)。对于上面的示例,可以提取出需要链接的实体指称为:{“旧金山”,“苹果”,“Swift”};②将识别的实体指称输入知识库中找到可能的候选实体列表,比如文本中的实体指称“苹果”的候选实体列表为:{苹果(水果),苹果公司,苹果(电影),苹果(银行),…};③基于实体指称的上下文信息进行实体消歧。比如“苹果”实体指称的上下文词语{发布会,编程语言,开发者,…}识别出该段文本中“苹果”指的是苹果公司,而不是其他“苹果”;④空提及检测与聚类。如果知识库中不包含实体指称,那么就把对应的实体指称指向Null。目前的实体链接方法把重点放在第三个步骤,有许多学者把深度学习应用在实体链接上,尝试用神经网络获取更多的语义信息,从而达到提高消歧算法精度的目的,但是都忽略了候选实体列表的数量和质量对实体消歧的精度和效率也有重大影响,比如,实体指称“苹果”公司,如果能在知识库搜索环节,能把正确的消歧对象放入候选实体列表,并且让候选实体列表尽量精简,减少后面消歧算法的运算量,在不影响消歧精度的情况下提高实体链接方法的准确度。
技术实现思路
现有实体链接方法包含四个步骤:实体识别、候选实体生成、实体消歧、输出。本专利技术主要针对候选实体生成模块,提出一种串行结构实现融合浅层语义信息的图模型的候选实体过滤方法。该串行结构主要包含三个部分:指称扩展、wiki搜索、融合浅层语义信息的图模型过滤方法。步骤1针对实体指称经常会出现简称、别名导致实体指称获取不准确的问题。本专利技术将中文指称首先输入三种候选指称扩展方法:子字符串扩展、翻译扩展、特殊简写扩展中得到精准完整的实体指称。步骤2将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中N代表候选实体列表的容量。步骤3将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个常数。步骤4最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备。本专利技术使用融合浅层语义的图模型过滤算法进行候选实体过滤,相比传统候选实体过滤算法选取单一的实体特征进行消歧,给实体消歧带来较大累积误差。本文提出一种新的文本相似度计算方法:通过融合浅层语义信息计算候选实体和实体指称上下文相似度获得文本相似度作为过滤算法的权重因子sim,同时利用基于图模型出入度算法计算候选实体相关度作为过滤算法的权重因子pr,最后通过融合sim和pr得到综合得分对候选实体进行排列,过滤前τ个候选实体作为最终的候选实体列表。附图说明图1为本专利技术的融合浅层语义信息的图模型过滤方法图2为本专利技术的指称扩展方法流程图图3为本专利技术的数据预处理流程图图4为本专利技术的数据预处理伪代码示意图图5为本专利技术的基于知识库匹配搜索算法流程图图6为本专利技术的融合浅层语义信息的相似度计算方法图7为本专利技术的基于图模型出入度的实体相关度计算方法流程图图8为本专利技术的关于文本中候选实体构建图模型的示例图图9为本专利技术的过滤因子τ验证分析图具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。如图1所示,本专利技术提出了一种融合浅层语义信息的图模型过滤方法,该方法包括如下步骤:步骤1针对实体指称经常会出现简称、别名导致实体指称获取不准确的问题。本专利技术将中文指称首先输入三种候选指称扩展方法:子字符串扩展、翻译扩展、特殊简写扩展中得到精准完整的实体指称。步骤2将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中N代表候选实体列表的容量。步骤3将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个常数。步骤4最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备。1.指称扩展方法实体指称扩展方法流程图如图2所示,主要分为3个步骤:子字符串扩展、翻译扩展和基于特殊词典扩展。下面将会对每个步骤的原理分点叙述。(1)子字符串扩展对于文档中的每一个实体指称,会将文档中所有包含有相同实体的命名实体都标注出来,比如,文档d中提到了“李四”,文档d的上下文中又提到了“XX·李四”,那么后者“XX·李四”会被识别成“李四”的子字符串扩展名被列出。(2)翻译扩展名如果实体指称是英语等其他非中文语言,本专利技术会调用Google翻译获得其它非中文语言,并将其翻译成中文作为翻译扩展。(3)国家/地区扩展名如果是国家/地区名称的缩写可以通过提前构建的扩展词典扩展到更具体的国家/地区扩展名。例如,指称地缘政治实体“CN”将扩展为“中国”。本专利技术中,实体指词语,不过是特殊的词语,比如人名、地名、机构名等;实体指称指文本中有歧义的实体;候选实体,就是从知识库中匹配出可能的实体指称对象,其中一个是正确消歧对象。2.wiki搜索使用wiki搜索之前需要完成两个工作:数据预处理、实体指称-候选实体映射表构建。(1)数据预处理针对中文数据海量、难以迅速提取有效信息,并且在输入核心算法之前,需要对中文文本进行一些通用性处理。数据预处理模块主要为了方便后期实验,提前将中文维基百科文本进行数据预处理,存入Mysql数据库中。具体处理流程图如图3所示。本专利技术通过下载中文维基百科的XML离线数据包,将获得的离线数据包根据如表1所示的数据包标签对知识库数据进行抽取存入MySQL数据库中。表1中文维基百科离线数据包数据XLM标签导入数据的工具使本文档来自技高网
...

【技术保护点】
1.一种融合浅层语义信息的图模型过滤方法,主要针对候选实体生成模块,其特征在于,该方法包括以下步骤:/n步骤1:针对实体指称出现的简称、别名导致实体指称获取不准确的问题,将中文指称首先输入指称扩展方法,得到精准完整的实体指称;/n步骤2:将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{c

【技术特征摘要】
1.一种融合浅层语义信息的图模型过滤方法,主要针对候选实体生成模块,其特征在于,该方法包括以下步骤:
步骤1:针对实体指称出现的简称、别名导致实体指称获取不准确的问题,将中文指称首先输入指称扩展方法,得到精准完整的实体指称;
步骤2:将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中cl′表示第l′个候选实体,N代表候选实体列表的容量;
步骤3:将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个预设常数;
步骤4:最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备。


2.根据权利要求1所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤1中的所述指称扩展方法主要分为3个部分:子字符串扩展、翻译扩展和基于特殊词典扩展:
1.1.子字符串扩展
对于文档中的每一个实体指称,将文档中所有包含有相同实体的命名实体都标注出来,作为子字符串扩展名被列出;
1.2.翻译扩展
如果实体指称是英语等其他非中文语言,调用Google翻译获得其它非中文语言,并将其翻译成中文作为翻译扩展;
1.3.基于特殊词典扩展
如果是国家/地区名称的缩写,通过提前构建的扩展词典扩展到更具体的国家/地区扩展名。


3.根据权利要求2所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤2中进行所述wiki搜索之前具体包括以下两个步骤:
2.1.数据预处理
针对中文数据海量、难以迅速提取有效信息,并且在输入核心算法之前,需要对中文文本进行一些通用性处理,提前将中文维基百科文本进行数据预处理,存入Mysql数据库中;
2.2.实体指称-候选实体映射表构建
由于中文维基百科容量很大,为了便于查询实体指称的候选实体列表,将中文维基百科中的数据进行进一步处理,主要是构建实体指称-候选实体列表的映射表,当输入经过数据预处理后的中文维基百科文本,通过实体识别获得实体指称之后,可以直接将实体指称作为数据库查询字段,在数据库的映射表中找到对应的候选实体列表。


4.根据权利要求3所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤3中所述融合多特征的图模型过滤方法主要利用浅层次语义信息和实体之间的图模型链接信息进行候选实体过滤,其中浅层次语义信息权重因子w由tf-idf系数、词性权重和位置权重组成,由w可以得到候选实体与实体指称的上下文相似度权重sim;另外通过构建中文维基百科实体图模型出入度得到候选实体之间的相关度pr,最后给sim和pr分别赋予不同的权重α和β,得到候选实体列表的匹配度得分,具体计算公式如式1所示:
scorec=α*simc+β*prc式1
其中,c表示候选实体,simc表示候选实体c与实体指称m文本句向量的上下文相似度权重,prc表示候选实体之间的相关度,α和β的取值分别为α=0.47,β=0.53。


5.根据权利要求4所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述候选实体与实体指称的上下文相似度权重的计算方法中,利用的浅层语义信息主要有词频信息,即tf-idf系数、词性信息、位置信息,融合这三个信息权重作为BERT词向量的权重因子,最后对句子中词汇向量累加得到融合浅层语义信息的文本向量,计算候选实体和实体指称的上下文相似度权重具体计算方法包括:
1)计算tf-idf系数
使用fj表示词语j在文档中出现的频数,idfj表示词语j的逆文档频率,具体计算公式如式2、式3所示:



其中,D表示实体消歧中的消歧文本或者候选实体的实体页面描述文本,N(j|D)表示词语j出现在文本D中的次数,N(j)表示词语j出现在语料库中的总次数,



其中,T表示中文维基百科语料库中的文本总数,N(D|j)为包含词语j的文本数;
由此可以得到词语j的TF-IDF系数计算公式为式4所示:
TF-IDFj=fj*idfj式4
2)词性权重计算
在现代汉语中能标识文本特性的主要是一些实词,而介词、连词、叹...

【专利技术属性】
技术研发人员:贾海涛刘芳李建任利周焕来赫熙煦任金胜许文波
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1