【技术实现步骤摘要】
结构信息增强的中文医疗文本实体关系分类方法及系统
[0001]本专利技术涉及自然语言处理关系分类/抽取
,更具体地,涉及结构信息增强的中文医疗文本实体关系分类方法及系统。
技术介绍
[0002]改善中文医疗文本实体关系分类性能的方法是将文本的结构信息,比如依存句法结构或语义依存关系等文本结构信息融入到模型中,希望模型能学到文本的结构信息以帮助模型对实体之间关系类别进行划分。但现有方法存在如下几个方面的问题:
[0003](1)大部分工作使用外部解析器生成文本的结构信息,再将这部分信息融入到模型中,这种流水线式的架构,其错误可能会传播到后面的处理阶段,影响模型的性能。
[0004](2)结构解析器的分词结果跟实体指称不是一一对应的,这样的结构信息是否对实体之间的关系分类有帮助也是不确定的。
[0005]如下示例:
[0006]文本:“缺血性卒中@治疗中心使用MRI取代CT作为首选影像学检查”实体关系三元组:<缺血性卒中,影像检查,MRI>
[0007]问题:实体“缺血性卒中”在进行依存结构解析时分为了两个词。
[0008](3)由于医疗文本的特殊性,标注语料较少,难以满足深度学习模型训练需求。
技术实现思路
[0009]本专利技术针对现有技术中存在的医疗文本语料稀少的技术问题。
[0010]本专利技术提供了结构信息增强的中文医疗文本实体关系分类方法,包括以下步骤:
[0011]S1,获取语料训练集;
[0012] ...
【技术保护点】
【技术特征摘要】
1.结构信息增强的中文医疗文本实体关系分类方法,其特征在于,包括以下步骤:S1,获取语料训练集;S2,对语料训练集进行扩充后得到扩充语料;S3,将所述扩充语料送入使用中文预训练的语言模型BERT中,以获取每个字符的向量表征得到文本序列表征L为BERT层数,i和n均为字符的序号;S4,将文本序列表征S
(bert
‑
L)
送入融合注意力机制的双向长短期记忆网络BiLSTM后输出融合结构信息的文本序列表征R
BiLSTM
;S5,对文本中的实体类型进行向量表征得到实体类型向量C
k
;S6,对实体指称进行向量表征得到实体指称向量S7,将实体指称向量和实体类型向量进行拼接作为某一实体最终的向量表示:S8,对于任意的两个实体i和实体j,将其中的实体指称向量和实体类型向量进行拼接后送入全连接层进行关系分类。2.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S2具体包括:对文本进行依存结构解析,若某个实体指称存在分词,根据词组间的依存关系类型将该实体指称进行拆分,复制实体类型和关系类型,生成新的三元组样本,或使用医学术语词典对语料中的标注实体进行模糊匹配,对一些医学术语的中/英文表达替换为英/中文,生成一条新的文本语料。3.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S3具体包括:S31,使用经过融合自注意力机制的BiLSTM网络层,建模每对字符表示之间的有向性相关,其中,文本结构的归纳概率被建模为所有边的相关加和;S32,使用softmax进行归一化;S33,使用矩阵树定理计算边缘概率分布通过从独立分布中采样对文本结构进行归纳计算,并输出融合结构信息的文本序列表征本结构进行归纳计算,并输出融合结构信息的文本序列表征表示经过融合自注意力机制的BiLSTM后输出的第i个字符的向量表示,A
i
为第i个字符的文本结构。4.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S3具体包括:采用融合注意力机制的归纳式结构学习神经网络搭建语言模型,训练语料的实体词和实体词之间,实体词和非实体词之间,非实体词之间和非实体词之间的连接关系。5.根据权利要求1所述的结构信息增强的中文医疗文本实体关系分类方法,其特征在于,所述S5具体包括:构建编码实体类型的网络C
entity
,该网络C
entity
为一个q
×
d的矩阵,q为实体类型数量,d为向量维度,C
k
=C
entity...
【专利技术属性】
技术研发人员:邓彪,翟飞飞,付西娜,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。