文本消岐方法、电子设备、存储介质技术

技术编号:37643760 阅读:18 留言:0更新日期:2023-05-25 10:10
本申请涉及人工智能技术领域,尤其是涉及一种文本消岐方法、电子设备、存储介质。根据本申请文本消岐方法,需要先获取目标文本与预先训练的主题消岐模型,其中,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量,再基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量,基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。利用主题记忆网络与特征重置层,结合目标文本的主题信息来对文本特征向量进行增强处理,能够提升文本消岐方法的准确性。法的准确性。法的准确性。

【技术实现步骤摘要】
文本消岐方法、电子设备、存储介质


[0001]本申请涉及人工智能
,尤其是涉及一种文本消岐方法、电子设备、存储介质。

技术介绍

[0002]文本消歧任务是自然语言处理的研究领域之一,其中,文本消歧任务旨在把文本中的命名实体(例如地址、组织、人物、事件等)与预设数据库中的特定条目绑定,从而实现同一命名实体在不同场景下的消歧,例如区分出“笔记本”在当前场景下具体指的是笔记本电脑,还是书写用的笔记本。
[0003]相关技术中,往往利用预先训练的自然语言模型来处理目标文本信息,将目标文本信息转化成对应的隐向量,进一步基于分类函数处理隐向量即可得到目标文本信息的识别结果,达到消岐的目的。然而,这种消岐方法高度依赖于自然语言模型的性能,实际应用场景下命名实体往往会存在非常多的表示方式,例如简称、别称等。对此,目前的自然语言模型尚未具备执行消岐任务的优良性能,如何进一步提升文本消岐方法的准确性,已经成为业内亟待解决的一个问题。

技术实现思路

[0004]本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种文本消岐方法、电子设备、存储介质,能够提升文本消岐方法的准确性。
[0005]根据本申请的第一方面实施例的文本消岐方法,包括:
[0006]获取目标文本与预先训练的主题消岐模型,所述主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层;
[0007]基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量;
[0008]基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,所述主题特征向量表征所述目标文本的主题信息;
[0009]基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量;
[0010]基于所述分类解码层对所述文本增强向量进行识别,得到消岐后的所述目标文本。
[0011]根据本申请的一些实施例,所述获取目标文本与预先训练的主题消岐模型之前,还包括对所述主题消岐模型进行预先训练,具体包括:
[0012]获取训练数据集,所述训练数据集包括多个训练文本,每一所述训练文本配置有一一对应的训练标签;
[0013]将所述训练数据集输入所述主题消岐模型进行迭代训练,每一轮所述迭代训练中,基于所述主题消岐模型对所述训练文本进行识别,得到训练识别结果,并将所述训练标签与所述训练识别结果进行比对,得到识别偏差数据,基于所述识别偏差数据更新所述主
题消岐模型的模型参数;
[0014]当所述识别偏差数据符合预设训练条件,得到预先训练的所述主题消岐模型。
[0015]根据本申请的一些实施例,所述模型参数包括所述主题记忆网络中的主题矩阵,所述基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,包括:
[0016]基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量。
[0017]根据本申请的一些实施例,所述主题记忆网络包括键全连接层与值全连接层,所述基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量,包括:
[0018]对所述主题矩阵进行键特征转换,得到键矩阵;
[0019]对所述主题矩阵进行值特征转换,得到值矩阵;
[0020]基于所述键矩阵对所述文本特征向量进行归一化处理,得到所述文本特征向量对应的权重向量;
[0021]基于所述权重向量与所述值矩阵进行点积处理,得到所述主题特征向量。
[0022]根据本申请的一些实施例,所述基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量,包括:
[0023]基于所述主题特征向量与所述文本特征向量,在所述特征重置层中构建特征重置向量;
[0024]基于所述特征重置向量、所述主题特征向量与所述文本特征向量进行语义增强处理,得到所述文本增强向量。
[0025]根据本申请的一些实施例,所述模型参数包括所述特征重置层中的第一重置矩阵、第二重置矩阵与重置偏移向量,所述基于所述主题特征向量与所述文本特征向量,在所述特征重置层中构建特征重置向量,包括:
[0026]基于所述第一重置矩阵对所述文本特征向量进行点积处理,得到第一重置元素;
[0027]基于所述第二重置矩阵对所述主题特征向量进行点积处理,得到第二重置元素;
[0028]将所述第一重置元素、第二重置元素与所述重置偏移向量进行求和处理,得到第三重置元素;
[0029]将所述第三重置元素代入预设的激活函数,得到所述特征重置向量。
[0030]根据本申请的一些实施例,所述基于所述特征重置向量、所述主题特征向量与所述文本特征向量进行语义增强处理,得到所述文本增强向量,包括:
[0031]基于所述特征重置向量与所述文本特征向量进行哈达玛积运算,得到第一语义增强元素;
[0032]基于单位向量与所述特征重置向量进行作差处理,得到第二语义增强元素;
[0033]所述主题特征向量与所述第二语义增强元素进行哈达玛积运算,得到第三语义增强元素;
[0034]将所述第一语义增强元素与所述第三语义增强元素进行向量串联运算,得到所述文本增强向量。
[0035]根据本申请的一些实施例,所述基于所述文本编码层对所述目标文本进行文本特
征提取,得到文本特征向量,包括:
[0036]基于所述目标文本进行分词处理,得到多个文本实体字段;
[0037]基于所述文本编码层对每一所述文本实体字段进行文本特征提取,得到与所述文本实体字段一一对应的所述文本特征向量。
[0038]第二方面,本申请实施例提供了一种电子设备,包括:存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本申请第一方面实施例中任意一项所述的文本消岐方法。
[0039]第三方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如本申请第一方面实施例中任意一项所述的文本消岐方法。
[0040]根据本申请实施例的文本消岐方法、电子设备、存储介质,至少具有如下
[0041]有益效果:
[0042]根据本申请文本消岐方法,需要先获取目标文本与预先训练的主题消岐模型,其中,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量,再基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,主题特征向量表征目标文本的主题信息,进一步基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量,再进一步基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。利用主题记忆网络与特征重置层,结合目标文本的主题信息来对文本特征向量进行增强处理,能够提升文本消岐方法的准确性。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本消岐方法,其特征在于,包括:获取目标文本与预先训练的主题消岐模型,所述主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层;基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量;基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,所述主题特征向量表征所述目标文本的主题信息;基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量;基于所述分类解码层对所述文本增强向量进行识别,得到消岐后的所述目标文本。2.根据权利要求1所述的方法,其特征在于,所述获取目标文本与预先训练的主题消岐模型之前,还包括对所述主题消岐模型进行预先训练,具体包括:获取训练数据集,所述训练数据集包括多个训练文本,每一所述训练文本配置有一一对应的训练标签;将所述训练数据集输入所述主题消岐模型进行迭代训练,每一轮所述迭代训练中,基于所述主题消岐模型对所述训练文本进行识别,得到训练识别结果,并将所述训练标签与所述训练识别结果进行比对,得到识别偏差数据,基于所述识别偏差数据更新所述主题消岐模型的模型参数;当所述识别偏差数据符合预设训练条件,得到预先训练的所述主题消岐模型。3.根据权利要求2所述的方法,其特征在于,所述模型参数包括所述主题记忆网络中的主题矩阵,所述基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,包括:基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量。4.根据权利要求3所述的方法,其特征在于,所述主题记忆网络包括键全连接层与值全连接层,所述基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量,包括:对所述主题矩阵进行键特征转换,得到键矩阵;对所述主题矩阵进行值特征转换,得到值矩阵;基于所述键矩阵对所述文本特征向量进行归一化处理,得到所述文本特征向量对应的权重向量;基于所述权重向量与所述值矩阵进行点积处理,得到所述主题特征向量。5.根据权利要求2所述的方法,其特征在于,所述基于所述主题特征向量在所述特征重置层中对所述...

【专利技术属性】
技术研发人员:宋彦王伟田元贺郑毅
申请(专利权)人:华润数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1