一种医疗长文本信息抽取方法及装置制造方法及图纸

技术编号：34901850 阅读：20 留言：0更新日期：2022-09-10 14:09

本发明专利技术涉及一种医疗长文本信息抽取方法，包括：对长文本进行划分，得到多个片段；每个片段包括预设数量个句子；将每个片段输入预训练模型，得到片段中的句子的字符表示；将字符表示输入到神经网络，得到字符表示对应的上下文表示；并根据上下文表示获取句子表示；根据句子表示，计算当前句子为支撑句的得分；当得分大于预设的第一得分阈值时，确定当前句子所属的片段具有支撑句；判断片段中的句子的得分是否大于预设的第二阈值；当片段中的句子的得分大于预设的第二阈值时，根据片段中的句子的得分大于第二阈值的句子，获取片段中的支撑句集合。合。合。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗长文本信息抽取方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种医疗长文本信息抽取方法及装置。

技术介绍

[0002]在医疗场景下，编码员需要根据医生给出的医疗文书，快速定位关键文本证据，从而给出对应的正确的部位相关编码。如下述例子：
[0003](1)入院后完善相关检查，....，胸腹盆部CT增强示：1、右上肺肿块，....,于2019
‑
11
‑
23行支气管镜检查，术后病理：(右肺上叶，经支气管镜肺活检标本)：肺腺癌，...
[0004](2)编码员根据上述加粗部分证据能够将部位未特指编码C34.9(未特指的肺的恶性肿瘤)改为编码C34.1(上叶、支气管或肺的恶性肿瘤)。
[0005]现有技术存在的问题如下：
[0006](1)需要处理的医疗文本长度过长，可能达到五千字以上，现有模型无法处理。
[0007](2)不仅需要判断文本中的句子是不是含有部位信息的支撑句，还要判断整个文本是否含有支撑句，现有模型只支持单任务。

技术实现思路

[0008]本专利技术的目的是提供一种医疗长文本信息抽取方法及装置，以解决现有技术中的上述问题。
[0009]第一方面，本专利技术提供了一种医疗长文本信息抽取方法，所述方法包括：
[0010]对长文本进行划分，得到多个片段；每个片段包括预设数量个句子；
[0011]将每个片段输入预训练模型，得到所述片段中的句子的字符表示；
[0012]将...

【技术保护点】

【技术特征摘要】
1.一种医疗长文本信息抽取方法，其特征在于，所述方法包括：对长文本进行划分，得到多个片段；每个片段包括预设数量个句子；将每个片段输入预训练模型，得到所述片段中的句子的字符表示；将所述字符表示输入到神经网络，得到字符表示对应的上下文表示；并根据所述上下文表示获取句子表示；根据所述句子表示，计算当前句子为支撑句的得分；当所述得分大于预设的第一得分阈值时，确定所述当前句子所属的片段具有支撑句；判断所述片段中的句子的得分是否大于预设的第二阈值；当所述片段中的句子的得分大于预设的第二阈值时，根据所述片段中的句子的得分大于第二阈值的句子，获取片段中的支撑句集合。2.根据权利要求1所述的方法，其特征在于，所述对长文本进行划分，得到多个片段具体包括：根据句子级粒度，对所述长文本进行划分，得到多个句子；根据句子划分策略，确定预设数量个句子构成一个片段，将所述多个句子划分为多个片段。3.根据权利要求1所述的方法，其特征在于，所述根据所述上下文表示获取句子表示具体包括：根据所述上下文表示，确定每个句子的起止位置；根据所述起止位置，获取最大信息量；根据所述最大信息量，确定句子表示。4.根据权利要求1所述的方法，其特征在于，所述根据所述句子表示，计算当前句子为支撑句的得分具体包括：将所述句子表示通过多层感知机MLP映射到二维，通过第一函数计算当前句子的得分。5.根据权利要求4所述的方法，其特征在于，所述根据所述句子表示，计算当前句子为支撑句的得分具体包括：将所述句子表示和特殊分类标识符表示合并，得到合并后的表示；将所述合并后的表示通过MLP映射到二维，通过第一函数计算合并后的表示的得分。6.根据权利要求1所述的方法，其特征在于，所述预训练模型中...

【专利技术属性】
技术研发人员：丘德来，刘升平，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人