短文本实体相关性识别方法、系统、电子设备及存储介质技术方案

技术编号:33340025 阅读:16 留言:0更新日期:2022-05-08 09:25
本发明专利技术公开了一种短文本实体相关性识别方法、系统、电子设备及存储介质,该方法包括:将包含实体上下文语义信息的词向量、包含实体位置编码信息的位置向量和包含实体预编码信息的预编码向量进行融合得到训练文本中单词的融合词向量;将每一个训练文本的单词的融合词向量输入到TD_LSTM模型中得到向前向量编码和向后向量编码,并将向前向量编码和向后向量编码拼接得到实体拼接向量,将实体拼接向量经过前馈神经网络得到每一个训练文本的分类编码向量,将分类编码向量归一化,根据归一化的分类编码向量得到损失函数,对损失函数进行迭代优化得到最优模型;将待识别短文本输入至最优模型中得到待识别文本的识别结果;实现了短文本实体相关性识别的准确性。文本实体相关性识别的准确性。文本实体相关性识别的准确性。

【技术实现步骤摘要】
短文本实体相关性识别方法、系统、电子设备及存储介质


[0001]本专利技术涉及文本处理领域,具体涉及到一种短文本实体相关性识别方法、系统、电子设备及存储介质。

技术介绍

[0002]目前,文本实体相关性的处理方法主要分为基于机器学习和基于神经网络两类。
[0003]基于机器学习的方法主要是对文本进行手动构建特征信息,再使用机器学习分类器将特征信息进行分类,常用的特征分类器有支持向量机 (Support Vector Machine,SVM)、朴素贝叶斯等。传统的机器学习方法,特征的构建很重要,是决定准确率的关键,需要做大量的特征工程的工作,特征信息的提取构建不全面,从而导致根据给定的特征信息进行实体相关性识别的准确性较低。
[0004]基于神经网络的方法则是对文本进行深度语义特征向量表示,之后根据给定实体来预测实体的相关度。相比于手动构建特征信息,使用神经网络进行特征提取可以更全面,并且其本身可以从数据中学习到目标特征表示。神经网络自动地学习特征的特性,避免了需要大量领域知识的特征提取过程。常用的神经网络有循环神经网络(Recurrent NeuralNetwork,RNN)、长短期记忆网络(Long Short

Term Memory,LSTM)等。然而,根据上下文语义自动学习到的实体特征仍然不全面,存在实体相关度识别不准确的问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种短文本实体相关性识别方法、系统、电子设备及存储介质,以解决现有技术中短文本实体相关度识别不准确的问题。
[0006]为此,本专利技术实施例中提供了如下技术方案:
[0007]根据第一方面,本专利技术实施例中提供了一种短文本实体相关性识别方法,包括:获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;分别将每一个训练文本的融合词向量输入到 TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;将分类编码向量进行归一化,得到归一化的分类编码向量;根据归一化的分类编码向量得到模型编
码的分类向量与实际实体分类向量之间的损失函数;根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;获取待识别短文本;将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
[0008]可选地,融合词向量的计算公式如下:
[0009]w_a=w_ta+w_pa+w_da
[0010]其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。
[0011]可选地,分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码的步骤之后,还包括:分别将每一个训练文本的融合词向量输入到TD_LSTM 网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值;判断相似度计算值是否大于预设相似度阈值;若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。
[0012]可选地,相似度计算值的计算公式如下:
[0013]Threshold=cosine(w_new,w_d)
[0014]其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量;
[0015]实体词所对应的新的编码向量的计算公式如下:
[0016][0017]其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数; w_t为训练文本中实体词所对应的实体词编码向量,w_t
l
‑1为训练文本中实体词左侧第一个单词的编码向量,w_t
l
‑2为训练文本中实体词左侧第二个单词的编码向量,w_t
l

s
为训练文本中实体词左侧第s个单词的编码向量,w_t
r+1
为训练文本中实体词右侧第一个单词的编码向量,w_t
r+2
为训练文本中实体词右侧第二个单词的编码向量,w_t
r+v
为训练文本中实体词右侧第v个单词的编码向量。
[0018]可选地,更新后的预编码向量的计算公式如下:
[0019][0020]其中,w_z为实体词更新后的预编码向量;w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量。
[0021]可选地,将所述待识别短文本输入至最优模型的步骤之前,还包括:将待识别短文本输入至TextRCNN模型进行文本二分类,得到分类结果;若所述待识别短文本的分类结果为噪音文本,则将所述待识别文本去除;若所述待识别短文本的分类结果为非噪音文本,则
将所述待识别文本保留。
[0022]可选地,损失函数的计算公式如下:
[0023][0024]其中,n是训练样本的个数,y
i
是第i个训练样本的实际分类向量, a
i
是第i个训练样本经过模型编码的分类向量。
[0025]根据第二方面,本专利技术实施例中提供了一种短文本实体相关性识别系统,包括:
[0026]第一获取模块,用于获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;
[0027]第二获取模块,用于获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短文本实体相关性识别方法,其特征在于,包括:获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;将分类编码向量进行归一化,得到归一化的分类编码向量;根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;获取待识别短文本;将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。2.根据权利要求1所述的短文本实体相关性识别方法,其特征在于,融合词向量的计算公式如下:w_a=w_ta+w_pa+w_da其中,w_a为单词a所对应的融合词向量;w_ta为单词a所对应的词向量;w_pa为单词a所对应的位置向量,w_da为单词a所对应的预编码向量。3.根据权利要求1所述的短文本实体相关性识别方法,其特征在于,分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码的步骤之后,还包括:分别将每一个训练文本的融合词向量输入到TD_LSTM网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向
量进行相似度比较,得到相似度计算值;判断相似度计算值是否大于预设相似度阈值;若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵。4.根据权利要求3所述的短文本实体相关性识别方法,其特征在于,相似度计算值的计算公式如下:Threshold=cosine(w_new,w_d)其中,Threshold为相似度计算值,w_new为实体词所对应的新的编码向量,w_d为实体词所对应的预编码向量;实体词所对应的新的编码向量的计算公式如下:其中,s为实体词左侧第一预设个数,v为实体词右侧第二预设个数;w_t为训练文本中实体词所对应的实体词编码向量,w_t
l
‑1为训练文本中实体词左侧第一个单词的编码向量,w_t
l
‑2为训练文本中实体词左侧第二个单词的编码向量,w_t
l

s
为训练文本中实...

【专利技术属性】
技术研发人员:郭艳波刘瑞熙王兆元龚浩李青龙
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1