System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术提出一种基于信息增强的电子病历出院小结自动生成方法、系统、设备及介质,属于电子病历处理。
技术介绍
1、随着对健康问题的重视以及电子病历在医学领域的普及,大多数医院都会为患者构建电子病历。这些病历涵盖了患者的病程记录、检查记录以及检查结果等信息,且每位患者的病历数量可能不止一份。医生在为患者写出院小结时,需要阅读患者在住院期间的所有电子病历,病历中繁杂冗余的信息往往需要耗费医生大量的时间。自动文本摘要技术,又称为自动文摘,将大量的文本用简短的语句进行压缩,保留文本中的关键信息,解决原文中内容冗余繁杂的问题,可以有效地减少大量信息带来的负担、提升用户获取信息的速度。通过自动文摘生成出院小结可以辅助医生节省大量的人力物力。
2、自动文摘的应用范围十分广泛,包括新闻、舆情分析、观点/情感摘要、科学论文摘要等领域。初期自动文摘主要使用统计学的知识,根据文本中的词频或者单词分布等信息为文本生成摘要。随着人工智能技术的飞速发展,已有大量基于深度学习的自动文摘生成的研究,但是主要集中在经济和新闻领域,在医学领域相关工作很少,且医学领域工作多集中在医疗实体关系抽取、疾病风险预测、医学影像报告生成、辅助诊断等。虽然也有一些工作进行摘要研究,例如,通过摘要放射科报告来生成临床印象,通过摘要病人的健康记录来生成病史,但是研究多集中于英文医疗领域,在中文领域尤其是有关出院小结生成任务的研究较少。
3、电子病历出院小结自动生成研究有着重要的理论价值和广阔的应用前景。在理论方面,自动文摘生成以机器学习、数据挖掘、自然语言处
技术实现思路
1、专利技术目的,为有效利用电子病历文本中的实体关系信息来改善文本生成的质量,本专利技术提出一种基于信息增强的电子病历出院小结自动生成方法。
2、技术方案,为了解决上述技术问题,本专利技术提出一种基于信息增强的电子病历出院小结自动生成方法,该方法包括步骤:
3、s1.利用t5框架对输入的电子病历文本进行处理,获得上下文语义信息的文本向量表示ht;
4、s2.利用bert编码器对输入的电子病历中的疾病、症状和检查实体信息进行处理,获得上下文语义信息的实体向量表示hd、hs、he,并利用图卷积网络对输入的疾病、症状和检查三种实体构成的关系三元组进行处理,获得知识图谱嵌入表示特征hg;
5、s3.使用多粒度信息融合方式对文本向量表示ht、实体向量表示hd、hs、he以及知识图谱嵌入表示特征hg进行融合,获得融合后的特征表示ha;
6、s4.使用基于指针生成网络的解码方式对融合后的特征表示ha进行解码,得到最终的摘要结果,即出院小结。
7、进一步的,步骤s1中,上下文语义信息的文本向量表示ht计算过程如下:
8、(1.1)将文本被分词成一系列的词元token,所述词元为单词、子词、特殊符号,在分词后的词元序列的开头和结尾,分别添加特殊的开始<s>和结束</s>词元,用于标记序列的边界;
9、(1.2)为每个词元添加相应的位置编码,所述位置编码将输入到transformer模型的第一层以提供位置信息;
10、(1-3)每个词元通过查找嵌入矩阵获得与之对应的嵌入向量表示;
11、(1-4)将位置编码添加到嵌入向量表示中得到输入序列,输入transformer模型编码器模块,通过多层的编码器结构进行编码,产生对应的输入表示,即ht。
12、进一步的,步骤s2中,利用bert编码器对输入的电子病历中的疾病、症状和检查实体信息进行处理,获得上下文语义信息的实体向量表示hd、hs、he,具体方法如下:
13、(2.1)将疾病序列集合定义为d={d1,d2,...,dn},其中,n为疾病实体序列的长度;将症状序列集合定义为s={s1,s2,...,sm},其中,m为症状实体序列的长度;将检查序列集合定义为e={e1,e2,...,ek},其中,k为检查实体序列的长度;将原始句子序列定义为t={t1,t2,...,tl},其中,l为原始句子序列的长度;获取疾病、症状和检查的实体输入表示,用于捕获单元的含义、单元所属的句子以及单元在序列中的位置信息,过程如下;
14、ed(pi)=t(pi)+s(pi)+p(l)
15、其中,p指的是d、s或e,ed(pi)为第i个单元的输入表示,t(pi)是词嵌入,s(pi)是段嵌入,p(i)是位置嵌入;
16、将所有单元的输入表示ed(pi)组合成一个序列ep,如下所示;
17、ep=[ed(p1),ed(p2),...,ed(pn)]
18、(2.2)将序列ep送入transformer编码器的第一个编码层,即输入表示为
19、
20、随机初始化可学习的参数矩阵wiq,wik和wiv,在transformer中第l层的计算过程如下;
21、
22、headi=attention(qi,ki,vi)
23、
24、multihead(q,k,v)=concat(head1,...,headh)w
25、ffn(x)=gelu(xw1+b1)w2+b2
26、
27、其中,是第l层的输入表示,wiq,wik和wiv为可学习的参数矩阵,headi是第i个头的输出,h是注意力头的个数,q表示全局的查询矩阵,由ql构成,k表示全局的键矩阵,由ki构成,v表示全局的值矩阵,由vi构成,dk是键向量k的维度,w是由concat(head1,...,headh)经过线性变换得到的权重矩阵,w1、w2、b1、b2是前馈网络的参数,是第l层的输出表示;
28、(2.3)重复上述过程,经过l层后,得到最终的输出分别对疾病、症状和检查三种实体进行编码,过程为:
29、
30、
31、其中,hd为疾病实体隐态向量,hs为症状实体隐态向量,he为检查实体隐态向量。
32、进一步的,步骤s2中,利用图卷积网络对输入的的电子病历中的疾病、症状和检查三种实体构成的关系三元组进行处理,获得知识图谱嵌入表示特征hg,计算过程包括:
33、(1)将由疾病、症状和检查三种实体及关系三元组构成的知识图谱看作一个图其中,节点代表疾病、症状、检查三种实体,边则代本文档来自技高网...
【技术保护点】
1.一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,该方法包括步骤:
2.根据权利要求1所述的一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤S1中,上下文语义信息的文本向量表示ht计算过程如下:
3.根据权利要求1所述的一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤S2中,利用Bert编码器对输入的电子病历中的疾病、症状和检查实体信息进行处理,获得上下文语义信息的实体向量表示hd、hs、he,具体方法如下:
4.根据权利要求1一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤S2中,利用图卷积网络对输入的的电子病历中的疾病、症状和检查三种实体构成的关系三元组进行处理,获得知识图谱嵌入表示特征hg,计算过程包括:
5.根据权利要求2所述的一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤S3中,所述的多粒度信息融合计算过程包括:
6.根据权利要求1一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤S4中,所述的基于指针生成网络的解码方
7.一种基于信息增强的电子病历出院小结自动生成计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
9.一种基于信息增强的电子病历出院小结自动生成系统,其特征在于,该系统包括如下模块:
...【技术特征摘要】
1.一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,该方法包括步骤:
2.根据权利要求1所述的一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤s1中,上下文语义信息的文本向量表示ht计算过程如下:
3.根据权利要求1所述的一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤s2中,利用bert编码器对输入的电子病历中的疾病、症状和检查实体信息进行处理,获得上下文语义信息的实体向量表示hd、hs、he,具体方法如下:
4.根据权利要求1一种基于信息增强的电子病历出院小结自动生成方法,其特征在于,步骤s2中,利用图卷积网络对输入的的电子病历中的疾病、症状和检查三种实体构成的关系三元组进行处理,获得知识图谱嵌入表示特征hg,计算过程包括:
...【专利技术属性】
技术研发人员:籍欣萌,昝红英,赵冰飞,牛承志,张坤丽,韩英杰,穆玲玲,贾玉祥,
申请(专利权)人:郑州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。