一种中文领域下基于词形和语义的负样本生成方法及装置制造方法及图纸

技术编号:35516503 阅读:17 留言:0更新日期:2022-11-09 14:33
本发明专利技术公开一种中文领域下基于词形和语义的负样本生成方法及装置,该方法包括:提取出中文百科知识图谱中的实体以及其周围一跳内的所有关系,将关系拼接在一起形成实体的描述信息文本;利用在中文语料上训练过的Word2Vec对实体和描述信息文本进行向量表示;将目标匹配实体和全部实体进行相似度匹配,返回符合条件的实体作为语义相似度候选实体集;将目标匹配实体再次和全部实体进行编辑距离的计算,返回符合条件的实体作为词形相似度候选实体集;根据语义相似度候选实体集和词形相似度候选实体集进行高混淆度负样本选取。本发明专利技术联合了词形相似度和语义相似度进行负样本选取,可以加速模型的收敛速度,还可以使模型训练出良好的决策边界。训练出良好的决策边界。训练出良好的决策边界。

【技术实现步骤摘要】
一种中文领域下基于词形和语义的负样本生成方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种中文领域下基于词形和语义的负样本生成方法及装置。

技术介绍

[0002]为了对全球快速增长的数据更好的利用,越来越多的科研人员致力于研究如何将这些信息更好的储存和查询。但是大量的数据是以自然语言形式存在的,而自然语言又是高度模糊的。为了将带有歧义的自然语言数据整理成信息并形式化为知识,FreeBase、DBpedia等知识库从网络上收集了大量信息,并使用三元组的形式将信息表示成知识。但是这种知识库往往需要一定的专业技能才能进行访问,这无疑提升了用户的使用门槛。而智能问答以知识库为中心对自然语言问题进行回答,为普通用户提供了一种简便的访问知识库的方法。智能问答的目标是将自然语言问题转化成结构化查询语句,并将知识图谱中的谓词关系或尾实体作为问题的答案返回。其中实体链接将问句中的非结构化知识与知识库中的结构化知识相链接,是智能问答中的关键组成部分。
[0003]与传统的实体链接不同,智能问答中的实体链接通常基于缺乏上下文信息的短文本问句,在智能问答中,实体链接的主流方法是使用一种pipeline结构,将任务分解为指称识别和实体消歧两部分,但由于一般情况下已有实体的量级非常大,将提及与知识库实体依次计算会导致较大的搜索空间。所以实体消歧又可以分为候选实体生成和候选实体排序两个模块。值得一提的是,实体消歧模型大多都基于相似度计算,并可以将其转化为二分类任务进行训练。具体来说,对于问句中的实体提及和知识库中的实体构成的<实体

关系>对,如果是正确的对应关系,可以将其认为是正例;反之,如果是错误的对应关系,则将其认为是一个负例。将相似度任务转化为二分类任务可以帮助研究者更好的对模型进行训练。
[0004]二分类任务作为自然语言处理中最为人所知的基础性任务,从一开始的支持向量机到后来的BERT都有专门对应二分类任务的多种多样训练策略,而负样本又是二分类模型训练时非常重要的一部分。
[0005]一般可以简单的依据正负样本在模型训练时带来的影响对其进行区分,其中将模型可以轻易地识别出正误的样本视作简单样本(Easy Example);而将那些模型难以正确识别正误的样本视为困难样本(Hard Example)。通常对模型有正向影响的是那些困难样本,因为它可以使得模型更好更快的训练,具体来说它可以避免每次都对全局参数进行更新,而是只在某个参数的附近进行局部的更新,而且还可以在提升模型收敛速度的同时提高模型决策边界的质量。而正常情况下正样本难以进行扩展和改动,但是对于负样本来说则有很大的操作空间,简单来说可以将正负样本视为互斥的两个集合,样本空间中不属于正样本的部分都可以认为是负样本。而如何从这些负样本中选取高质量的困难样本就成为了当下相关研究的重点内容。
[0006]现阶段的主要方法有三种,即随机负样本采样、基于统计度量和基于模型三种负采样方法。对于随机负样本采样来说,这是一种最简单且效果最不好的方法,因为随机负样
本通常会忽略掉大部分有用的信息,这种没有意义的负样本可以使得模型快速收敛,但是并不能使其有实质性的性能提升。至于基于统计度量的负采样方法就是以不同维度的相似度作为统计度量值,对负样本进行衡量和打分,并选取分数较高的负样本构成负样本集合。通常的做法是使用TF

IDF或者Word2Vec等方法对文本向量进行降维表示,进行快速相似度计算的同时返回具有一定混淆度的负样本。而基于模型的负采样方法则是利用已有的模型对正负样本对进行预测,并依据损失函数(Loss function)对其进行评价,如果一个样本的损失(loss)较大,则可以将其判定为难分样本,即困难样本。
[0007]在实体消歧模型的训练过程中,通常需要生成负样本使模型得到更好的训练效果。负样本的质量通常决定了模型的鲁棒性好坏。传统的负采样方法通常基于随机抽样或正态分布抽样,但这种简单的统计方法拟合能力较差,不能使得模型学到有用的信息。而对于基于模型的负采样方法来说,对于模型的训练周期长,成本消耗巨大。此外,这种不良的负样本甚至会为模型引入错误信息,导致实体消歧模型的性能下降。

技术实现思路

[0008]本专利技术针对知识库问答(KBQA)任务中的实体连接子任务中,更具体得讲是将实体连接任务转换成二分类任务时,需要构建高质量的负样本以使得模型可以更好更快的训练,而传统的负采样方法通常基于随机抽样或正态分布抽样,但这种简单的统计方法拟合能力较差,不能使得模型学到有用信息的问题,提出一种中文领域下基于词形和语义的负样本生成方法及装置。
[0009]为了实现上述目的,本专利技术采用以下技术方案:
[0010]本专利技术一方面提出一种中文领域下基于词形和语义的负样本生成方法,包括:
[0011]步骤1:提取出中文百科知识图谱中的实体以及其周围一跳内的所有关系,将所述关系拼接在一起形成实体的描述信息文本;
[0012]步骤2:利用在中文语料上训练过的Word2Vec对所述实体和描述信息文本进行向量表示;
[0013]步骤3:将目标匹配实体和所有的实体进行相似度匹配,返回符合条件的实体作为语义相似度候选实体集;
[0014]步骤4:将目标匹配实体再次和所有的实体进行编辑距离的计算,返回符合条件的实体作为词形相似度候选实体集;
[0015]步骤5:根据语义相似度候选实体集和词形相似度候选实体集进行高混淆度的负样本选取。
[0016]进一步地,所述步骤1包括:
[0017]首先将正确的<实体

提及>对中的实体提出,视作目标匹配实体;然后将中文百科知识图谱中的所有实体视作待匹配实体;最后用每个实体周围一跳的关系组成该实体的描述文本,对于目标匹配实体和待匹配实体,以“实体节点名称#消歧项#实体描述文本”表示实体。
[0018]进一步地,所述步骤2包括:
[0019]将步骤1中得到的以“实体节点名称#消歧项#实体描述文本”表示的实体进行分词,并利用在中文语料上训练过的Word2Vec得到的词向量对分词结果进行表示,并将向量
表示结果进行拼接,作为实体的整体向量表示。
[0020]进一步地,所述步骤3中,基于实体的整体向量表示、使用余弦相似度来计算实体间的语义相似程度。
[0021]进一步地,所述步骤4中,基于实体节点名称、使用莱文斯坦比来对实体间的词形相似度进行衡量。
[0022]进一步地,所述步骤5中,按照如下方式进行高混淆度的负样本选取:
[0023][0024]其中代表目标匹配实体与中文百科知识图谱中的实体e
i
之间的莱文斯坦比分数;代表目标匹配实体与中文百科知识图谱中的实体e
i
之间的余弦相似度分数;α,β,γ,δ是可以调整的超参数;
[0025]最后将选择好的实体与提及拼接在一起,组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文领域下基于词形和语义的负样本生成方法,其特征在于,包括:步骤1:提取出中文百科知识图谱中的实体以及其周围一跳内的所有关系,将所述关系拼接在一起形成实体的描述信息文本;步骤2:利用在中文语料上训练过的Word2Vec对所述实体和描述信息文本进行向量表示;步骤3:将目标匹配实体和所有的实体进行相似度匹配,返回符合条件的实体作为语义相似度候选实体集;步骤4:将目标匹配实体再次和所有的实体进行编辑距离的计算,返回符合条件的实体作为词形相似度候选实体集;步骤5:根据语义相似度候选实体集和词形相似度候选实体集进行高混淆度的负样本选取。2.根据权利要求1所述的一种中文领域下基于词形和语义的负样本生成方法,其特征在于,所述步骤1包括:首先将正确的<实体

提及>对中的实体提出,视作目标匹配实体;然后将中文百科知识图谱中的所有实体视作待匹配实体;最后用每个实体周围一跳的关系组成该实体的描述文本,对于目标匹配实体和待匹配实体,以“实体节点名称#消歧项#实体描述文本”表示实体。3.根据权利要求2所述的一种中文领域下基于词形和语义的负样本生成方法,其特征在于,所述步骤2包括:将步骤1中得到的以“实体节点名称#消歧项#实体描述文本”表示的实体进行分词,并利用在中文语料上训练过的Word2Vec得到的词向量对分词结果进行表示,并将向量表示结果进行拼接,作为实体的整体向量表示。4.根据权利要求3所述的一种中文领域下基于词形和语义的负样本生成方法,其特征在于,所述步骤3中,基于实体的整体向量...

【专利技术属性】
技术研发人员:李珠峰刘铄周刚卢记仓胡学先兰明敬王婧张凯翔张凤娟陈静夏毅
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1