一种医疗长文本信息抽取方法及装置制造方法及图纸

技术编号:34901850 阅读:20 留言:0更新日期:2022-09-10 14:09
本发明专利技术涉及一种医疗长文本信息抽取方法,包括:对长文本进行划分,得到多个片段;每个片段包括预设数量个句子;将每个片段输入预训练模型,得到片段中的句子的字符表示;将字符表示输入到神经网络,得到字符表示对应的上下文表示;并根据上下文表示获取句子表示;根据句子表示,计算当前句子为支撑句的得分;当得分大于预设的第一得分阈值时,确定当前句子所属的片段具有支撑句;判断片段中的句子的得分是否大于预设的第二阈值;当片段中的句子的得分大于预设的第二阈值时,根据片段中的句子的得分大于第二阈值的句子,获取片段中的支撑句集合。合。合。

【技术实现步骤摘要】
一种医疗长文本信息抽取方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种医疗长文本信息抽取方法及装置。

技术介绍

[0002]在医疗场景下,编码员需要根据医生给出的医疗文书,快速定位关键文本证据,从而给出对应的正确的部位相关编码。如下述例子:
[0003](1)入院后完善相关检查,....,胸腹盆部CT增强示:1、右上肺肿块,....,于2019

11

23行支气管镜检查,术后病理:(右肺上叶,经支气管镜肺活检标本):肺腺癌,...
[0004](2)编码员根据上述加粗部分证据能够将部位未特指编码C34.9(未特指的肺的恶性肿瘤)改为编码C34.1(上叶、支气管或肺的恶性肿瘤)。
[0005]现有技术存在的问题如下:
[0006](1)需要处理的医疗文本长度过长,可能达到五千字以上,现有模型无法处理。
[0007](2)不仅需要判断文本中的句子是不是含有部位信息的支撑句,还要判断整个文本是否含有支撑句,现有模型只支持单任务。

技术实现思路

[0008]本专利技术的目的是提供一种医疗长文本信息抽取方法及装置,以解决现有技术中的上述问题。
[0009]第一方面,本专利技术提供了一种医疗长文本信息抽取方法,所述方法包括:
[0010]对长文本进行划分,得到多个片段;每个片段包括预设数量个句子;
[0011]将每个片段输入预训练模型,得到所述片段中的句子的字符表示;
[0012]将所述字符表示输入到神经网络,得到字符表示对应的上下文表示;并根据所述上下文表示获取句子表示;
[0013]根据所述句子表示,计算当前句子为支撑句的得分;
[0014]当所述得分大于预设的第一得分阈值时,确定所述当前句子所属的片段具有支撑句;
[0015]判断所述片段中的句子的得分是否大于预设的第二阈值;
[0016]当所述片段中的句子的得分大于预设的第二阈值时,根据所述片段中的句子的得分大于第二阈值的句子,获取片段中的支撑句集合。
[0017]在一种可能的实现方式中,所述对长文本进行划分,得到多个片段具体包括:
[0018]根据句子级粒度,对所述长文本进行划分,得到多个句子;
[0019]根据句子划分策略,确定预设数量个句子构成一个片段,将所述多个句子划分为多个片段。
[0020]在一种可能的实现方式中,所述根据所述上下文表示获取句子表示具体包括:
[0021]根据所述上下文表示,确定每个句子的起止位置;
[0022]根据所述起止位置,获取最大信息量;
[0023]根据所述最大信息量,确定句子表示。
[0024]在一种可能的实现方式中,所述根据所述句子表示,计算当前句子为支撑句的得分具体包括:
[0025]将所述句子表示通过多层感知机MLP映射到二维,通过第一函数计算当前句子的得分。
[0026]在一种可能的实现方式中,所述根据所述句子表示,计算当前句子为支撑句的得分具体包括:
[0027]将所述句子表示和特殊分类标识符表示合并,得到合并后的表示;
[0028]将所述合并后的表示通过MLP映射到二维,通过第一函数计算合并后的表示的得分。
[0029]在一种可能的实现方式中,所述预训练模型中包括训练集,所述训练集包括多个样本,每个样本包括篇章、对应问题、参考答案和证据集合。
[0030]第二方面,本专利技术提供了一种医疗长文本信息抽取装置,所述装置包括:
[0031]划分模块,所述划分模块用于对长文本进行划分,得到多个片段;每个片段包括预设数量个句子;
[0032]模型输入模块,所述模型输入模块用于将每个片段输入预训练模型,得到所述片段中的句子的字符表示;
[0033]神经网络输入模块,所述神经网络输入模块用于将所述字符表示输入到神经网络,得到字符表示对应的上下文表示;并根据所述上下文表示获取句子表示;
[0034]计算模块,所述计算模块用于根据所述句子表示,计算当前句子为支撑句的得分;
[0035]确定模块,所述确定模块用于当所述得分大于预设的第一得分阈值时,确定所述当前句子所属的片段具有支撑句;
[0036]判断模块,所述判断模块用于判断所述片段中的句子的得分是否大于预设的第二阈值;
[0037]所述获取模块还用于当所述片段中的句子的得分大于预设的第二阈值时,根据所述片段中的句子的得分大于第二阈值的句子,获取片段中的支撑句集合。
[0038]第三方面,本专利技术提供了一种芯片系统,包括处理器,所述处理器与存储器的耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现第一方面任一项所述的医疗长文本信息抽取方法。
[0039]第四方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行第一方面任一项所述的医疗长文本信息抽取方法。
[0040]第五方面,本专利技术提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面任一项所述的医疗长文本信息抽取方法。
[0041]通过应用本专利技术实施例提供的医疗长文本信息抽取方法,设计了答案预测抽取局部和全文的医疗部位信息,并且判断片段是否具有所需支撑句的问题,基于句子级切分和预测的模型框架来解决长医疗文本处理问题,从而提供了借鉴医疗长文本信息抽取的新思路,并且在进行支撑句的获取时,考虑了句子表示,从而提高了抽取的精度。
附图说明
[0042]图1为本专利技术实施例一提供的医疗长文本部位信息证据抽取系统架构图;
[0043]图2为本专利技术实施例一提供的医疗长文本信息抽取方法流程示意图;
[0044]图3为本专利技术实施例二提供的医疗长文本信息抽取装置结构示意图;
[0045]图4为本专利技术实施例三提供的芯片系统结构示意图;
[0046]图5为本专利技术实施例四提供的计算机可读存储介质示意图;
[0047]图6为本专利技术实施例五提供的计算机程序产品示意图。
具体实施方式
[0048]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0049]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0050]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0051]在本申请中,将从医疗文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗长文本信息抽取方法,其特征在于,所述方法包括:对长文本进行划分,得到多个片段;每个片段包括预设数量个句子;将每个片段输入预训练模型,得到所述片段中的句子的字符表示;将所述字符表示输入到神经网络,得到字符表示对应的上下文表示;并根据所述上下文表示获取句子表示;根据所述句子表示,计算当前句子为支撑句的得分;当所述得分大于预设的第一得分阈值时,确定所述当前句子所属的片段具有支撑句;判断所述片段中的句子的得分是否大于预设的第二阈值;当所述片段中的句子的得分大于预设的第二阈值时,根据所述片段中的句子的得分大于第二阈值的句子,获取片段中的支撑句集合。2.根据权利要求1所述的方法,其特征在于,所述对长文本进行划分,得到多个片段具体包括:根据句子级粒度,对所述长文本进行划分,得到多个句子;根据句子划分策略,确定预设数量个句子构成一个片段,将所述多个句子划分为多个片段。3.根据权利要求1所述的方法,其特征在于,所述根据所述上下文表示获取句子表示具体包括:根据所述上下文表示,确定每个句子的起止位置;根据所述起止位置,获取最大信息量;根据所述最大信息量,确定句子表示。4.根据权利要求1所述的方法,其特征在于,所述根据所述句子表示,计算当前句子为支撑句的得分具体包括:将所述句子表示通过多层感知机MLP映射到二维,通过第一函数计算当前句子的得分。5.根据权利要求4所述的方法,其特征在于,所述根据所述句子表示,计算当前句子为支撑句的得分具体包括:将所述句子表示和特殊分类标识符表示合并,得到合并后的表示;将所述合并后的表示通过MLP映射到二维,通过第一函数计算合并后的表示的得分。6.根据权利要求1所述的方法,其特征在于,所述预训练模型中...

【专利技术属性】
技术研发人员:丘德来刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1