【技术实现步骤摘要】
一种融合浅层语义信息的图模型过滤方法
本专利技术涉及实体链接
,尤其涉及一种融合浅层语义信息的图模型过滤方法。
技术介绍
在大数据时代,文本资源是人们获取信息的重要途径,但由于自然语言处理中广泛存在着一词多义和多词一义的情况,故如何让机器理解实体的歧义和多样性,精准的为用户提供检索内容,是自然语言处理亟待解决的难题之一。实体链接处理各种非结构化/半结构化的输入,使用多种技术,提取各种类型的实体,并将这些信息与现有知识图谱进行集成。假设给定一段文本(如“在旧金山的发布会上,苹果为开发者推出新编程语言Swift”),一个实体链接系统包括如下研究内容:①识别文档中的目标指称(mention)。对于上面的示例,可以提取出需要链接的实体指称为:{“旧金山”,“苹果”,“Swift”};②将识别的实体指称输入知识库中找到可能的候选实体列表,比如文本中的实体指称“苹果”的候选实体列表为:{苹果(水果),苹果公司,苹果(电影),苹果(银行),…};③基于实体指称的上下文信息进行实体消歧。比如“苹果”实体指称的上下文词语{发布会,编程语言,开发者,…}识别出该段文本中“苹果”指的是苹果公司,而不是其他“苹果”;④空提及检测与聚类。如果知识库中不包含实体指称,那么就把对应的实体指称指向Null。目前的实体链接方法把重点放在第三个步骤,有许多学者把深度学习应用在实体链接上,尝试用神经网络获取更多的语义信息,从而达到提高消歧算法精度的目的,但是都忽略了候选实体列表的数量和质量对实 ...
【技术保护点】
1.一种融合浅层语义信息的图模型过滤方法,主要针对候选实体生成模块,其特征在于,该方法包括以下步骤:/n步骤1:针对实体指称出现的简称、别名导致实体指称获取不准确的问题,将中文指称首先输入指称扩展方法,得到精准完整的实体指称;/n步骤2:将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{c
【技术特征摘要】
1.一种融合浅层语义信息的图模型过滤方法,主要针对候选实体生成模块,其特征在于,该方法包括以下步骤:
步骤1:针对实体指称出现的简称、别名导致实体指称获取不准确的问题,将中文指称首先输入指称扩展方法,得到精准完整的实体指称;
步骤2:将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文维基百科知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中cl′表示第l′个候选实体,N代表候选实体列表的容量;
步骤3:将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个预设常数;
步骤4:最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备。
2.根据权利要求1所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤1中的所述指称扩展方法主要分为3个部分:子字符串扩展、翻译扩展和基于特殊词典扩展:
1.1.子字符串扩展
对于文档中的每一个实体指称,将文档中所有包含有相同实体的命名实体都标注出来,作为子字符串扩展名被列出;
1.2.翻译扩展
如果实体指称是英语等其他非中文语言,调用Google翻译获得其它非中文语言,并将其翻译成中文作为翻译扩展;
1.3.基于特殊词典扩展
如果是国家/地区名称的缩写,通过提前构建的扩展词典扩展到更具体的国家/地区扩展名。
3.根据权利要求2所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤2中进行所述wiki搜索之前具体包括以下两个步骤:
2.1.数据预处理
针对中文数据海量、难以迅速提取有效信息,并且在输入核心算法之前,需要对中文文本进行一些通用性处理,提前将中文维基百科文本进行数据预处理,存入Mysql数据库中;
2.2.实体指称-候选实体映射表构建
由于中文维基百科容量很大,为了便于查询实体指称的候选实体列表,将中文维基百科中的数据进行进一步处理,主要是构建实体指称-候选实体列表的映射表,当输入经过数据预处理后的中文维基百科文本,通过实体识别获得实体指称之后,可以直接将实体指称作为数据库查询字段,在数据库的映射表中找到对应的候选实体列表。
4.根据权利要求3所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤3中所述融合多特征的图模型过滤方法主要利用浅层次语义信息和实体之间的图模型链接信息进行候选实体过滤,其中浅层次语义信息权重因子w由tf-idf系数、词性权重和位置权重组成,由w可以得到候选实体与实体指称的上下文相似度权重sim;另外通过构建中文维基百科实体图模型出入度得到候选实体之间的相关度pr,最后给sim和pr分别赋予不同的权重α和β,得到候选实体列表的匹配度得分,具体计算公式如式1所示:
scorec=α*simc+β*prc式1
其中,c表示候选实体,simc表示候选实体c与实体指称m文本句向量的上下文相似度权重,prc表示候选实体之间的相关度,α和β的取值分别为α=0.47,β=0.53。
5.根据权利要求4所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述候选实体与实体指称的上下文相似度权重的计算方法中,利用的浅层语义信息主要有词频信息,即tf-idf系数、词性信息、位置信息,融合这三个信息权重作为BERT词向量的权重因子,最后对句子中词汇向量累加得到融合浅层语义信息的文本向量,计算候选实体和实体指称的上下文相似度权重具体计算方法包括:
1)计算tf-idf系数
使用fj表示词语j在文档中出现的频数,idfj表示词语j的逆文档频率,具体计算公式如式2、式3所示:
其中,D表示实体消歧中的消歧文本或者候选实体的实体页面描述文本,N(j|D)表示词语j出现在文本D中的次数,N(j)表示词语j出现在语料库中的总次数,
其中,T表示中文维基百科语料库中的文本总数,N(D|j)为包含词语j的文本数;
由此可以得到词语j的TF-IDF系数计算公式为式4所示:
TF-IDFj=fj*idfj式4
2)词性权重计算
在现代汉语中能标识文本特性的主要是一些实词,而介词、连词、叹...
【专利技术属性】
技术研发人员:贾海涛,刘芳,李建,任利,周焕来,赫熙煦,任金胜,许文波,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。