结构信息增强的中文医疗文本实体关系分类方法及系统技术方案

技术编号:37446680 阅读:12 留言:0更新日期:2023-05-06 09:18
本发明专利技术属于自然语言处理关系分类/抽取技术领域,具体提供了结构信息增强的中文医疗文本实体关系分类方法及系统,其中方法包括:获取语料训练集;对语料训练集进行扩充后得到扩充语料;将所述扩充语料送入使用中文预训练的语言模型BERT中,以获取文本序列表征;送入双向长短期记忆网络BiLSTM后输出融合结构信息的文本序列表征;将实体指称向量和实体类型向量进行拼接作为某一实体最终的向量表示,对于任意的两个实体i和实体j,将其中的实体指称向量和实体类型向量进行拼接后送入全连接层进行关系分类。通过从实体指称的表述类型和实体指称的结构组成方面对语料进行扩充,解决了医疗文本语料稀少问题,丰富的训练语料的多样性,提升模型的泛化一性能。提升模型的泛化一性能。提升模型的泛化一性能。

【技术实现步骤摘要】
结构信息增强的中文医疗文本实体关系分类方法及系统


[0001]本专利技术涉及自然语言处理关系分类/抽取
,更具体地,涉及结构信息增强的中文医疗文本实体关系分类方法及系统。

技术介绍

[0002]改善中文医疗文本实体关系分类性能的方法是将文本的结构信息,比如依存句法结构或语义依存关系等文本结构信息融入到模型中,希望模型能学到文本的结构信息以帮助模型对实体之间关系类别进行划分。但现有方法存在如下几个方面的问题:
[0003](1)大部分工作使用外部解析器生成文本的结构信息,再将这部分信息融入到模型中,这种流水线式的架构,其错误可能会传播到后面的处理阶段,影响模型的性能。
[0004](2)结构解析器的分词结果跟实体指称不是一一对应的,这样的结构信息是否对实体之间的关系分类有帮助也是不确定的。
[0005]如下示例:
[0006]文本:“缺血性卒中@治疗中心使用MRI取代CT作为首选影像学检查”实体关系三元组:<缺血性卒中,影像检查,MRI>
[0007]问题:实体“缺血性卒中”在进行依存结构解析时分为了两个词。
[0008](3)由于医疗文本的特殊性,标注语料较少,难以满足深度学习模型训练需求。

技术实现思路

[0009]本专利技术针对现有技术中存在的医疗文本语料稀少的技术问题。
[0010]本专利技术提供了结构信息增强的中文医疗文本实体关系分类方法,包括以下步骤:
[0011]S1,获取语料训练集;
[0012]S2,对语料训练集进行扩充后得到扩充语料;
[0013]S3,将所述扩充语料送入使用中文预训练的语言模型BERT中,以获取每个字符的向量表征排列组合得到文本序列表征S
(bert

L)

[0014]S4,将文本序列表征S
(bert

L)
送入双向长短期记忆网络BiLSTM后输出融合结构信息的文本序列表征;
[0015]S5,对文本中的实体类型进行向量表征得到实体类型向量c
k

[0016]S6,对实体指称进行向量表征得到实体指称向量
[0017]S7,将实体指称向量和实体类型向量进行拼接作为某一实体最终的向量表示:
[0018]S8,对于任意的两个实体i和实体j,将其中的实体指称向量和实体类型向量进行拼接后送入全连接层进行关系分类。
[0019]优选地,所述S2具体包括:
[0020]对文本进行依存结构解析,若某个实体指称存在分词,根据词组间的依存关系类
型将该实体指称进行拆分,复制实体类型和关系类型,生成新的三元组样本,或
[0021]使用医学术语词典对语料中的标注实体进行模糊匹配,对一些医学术语的中/英文表达替换为英/中文,生成一条新的文本语料。
[0022]优选地,所述S3具体包括:
[0023]S31,使用自注意力机制建模每对字符表示之间的有向性相关,其中,文本结构的归纳概率被建模为所有边的相关加和;
[0024]S32,使用softmax进行归一化;
[0025]S33,使用矩阵树定理计算边缘概率分布通过从独立分布中采样对文本结构进行归纳计算,并输出融合结构信息的文本序列表征表示经过融合自注意力机制的BiLSTM后输出的第i个字符的向量表示。
[0026]优选地,所述S3具体包括:
[0027]采用融合注意力机制的归纳式结构学习神经网络搭建语言模型,训练语料的实体词和实体词之间,实体词和非实体词之间,非实体词之间和非实体词之间的连接关系。
[0028]优选地,所述S5具体包括:
[0029]构建编码实体类型的网络C
entity
,该网络C
entity
为一个q
×
d的矩阵,q为实体类型数量,d为向量维度,C
k
=C
entity
(e
k
)为第k个实体类型e
k
的向量表征即实体类型向量。
[0030]优选地,所述S6具体包括:
[0031]将实体指称中包含字符的融合结构信息的向量表征的每个维度取平均:即为实体指称E
k
的融合文本结构信息的语义表征向量即实体指称向量。
[0032]优选地,所述S8之后还包括:
[0033]使用softmax函数对其关系类型标签进行预测:其中,为第i个实体最终的向量表示,为第j个实体最终的向量表示,W
r
为全连接层参数矩阵,b
r
,为全连接层偏置向量,为输出的预测标签的one

hot向量。
[0034]本专利技术还提供了结构信息增强的中文医疗文本实体关系分类系统,所述系统用于实现结构信息增强的中文医疗文本实体关系分类方法,包括:
[0035]语料获取模块,用于获取语料训练集;
[0036]语料扩充模块,用于对语料训练集进行扩充后得到扩充语料;
[0037]文本序列表征模块,用于将所述扩充语料送入使用中文预训练的语言模型BERT中,以获取每个字符的向量表征排列组合得到文本序列表征S
(bert

L)

[0038]结构信息融合模块,用于将文本序列表征S
(bert

L)
送入双向长短期记忆网络BiLSTM后输出融合结构信息的文本序列表征;
[0039]实体类型向量表征模块,用于对文本中的实体类型进行向量表征得到实体类型向量C
k

[0040]实体指称向量表征模块,用于对实体指称进行向量表征得到实体指称向量
[0041]拼接模块,用于将实体指称向量和实体类型向量进行拼接作为某一实体最终的向量表示:
[0042]关系分类模块,用于对于任意的两个实体i和实体j,将其中的实体指称向量和实体类型向量进行拼接后送入全连接层进行关系分类。
[0043]本专利技术还提供了电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现结构信息增强的中文医疗文本实体关系分类方法的步骤。
[0044]本专利技术还提供了计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现结构信息增强的中文医疗文本实体关系分类方法的步骤。
[0045]有益效果:本专利技术提供的结构信息增强的中文医疗文本实体关系分类方法及系统,其中方法包括:获取语料训练集;对语料训练集进行扩充后得到扩充语料;将所述扩充语料送入使用中文预训练的语言模型BERT中,以获取每个字符的向量表征,排列组合得到文本序列表征;将文本序列表征送入双向长短期记忆网络BiLSTM后输出融合结构信息的文本序列表征;将实体指称向量和实体类型向量进行拼接作为某一实体最终的向量表示,对于任意的两个实体i和实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.结构信息增强的中文医疗文本实体关系分类方法,其特征在于,包括以下步骤:S1,获取语料训练集;S2,对语料训练集进行扩充后得到扩充语料;S3,将所述扩充语料送入使用中文预训练的语言模型BERT中,以获取每个字符的向量表征得到文本序列表征L为BERT层数,i和n均为字符的序号;S4,将文本序列表征S
(bert

L)
送入融合注意力机制的双向长短期记忆网络BiLSTM后输出融合结构信息的文本序列表征R
BiLSTM
;S5,对文本中的实体类型进行向量表征得到实体类型向量C
k
;S6,对实体指称进行向量表征得到实体指称向量S7,将实体指称向量和实体类型向量进行拼接作为某一实体最终的向量表示:S8,对于任意的两个实体i和实体j,将其中的实体指称向量和实体类型向量进行拼接后送入全连接层进行关系分类。2.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S2具体包括:对文本进行依存结构解析,若某个实体指称存在分词,根据词组间的依存关系类型将该实体指称进行拆分,复制实体类型和关系类型,生成新的三元组样本,或使用医学术语词典对语料中的标注实体进行模糊匹配,对一些医学术语的中/英文表达替换为英/中文,生成一条新的文本语料。3.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S3具体包括:S31,使用经过融合自注意力机制的BiLSTM网络层,建模每对字符表示之间的有向性相关,其中,文本结构的归纳概率被建模为所有边的相关加和;S32,使用softmax进行归一化;S33,使用矩阵树定理计算边缘概率分布通过从独立分布中采样对文本结构进行归纳计算,并输出融合结构信息的文本序列表征本结构进行归纳计算,并输出融合结构信息的文本序列表征表示经过融合自注意力机制的BiLSTM后输出的第i个字符的向量表示,A
i
为第i个字符的文本结构。4.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S3具体包括:采用融合注意力机制的归纳式结构学习神经网络搭建语言模型,训练语料的实体词和实体词之间,实体词和非实体词之间,非实体词之间和非实体词之间的连接关系。5.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S5具体包括:构建编码实体类型的网络C
entity
,该网络C
entity
为一个q
×
d的矩阵,q为实体类型数量,d为向量维度,C
k
=C
entity...

【专利技术属性】
技术研发人员:邓彪翟飞飞付西娜
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1