电子病历数据的主题切分方法、装置及系统制造方法及图纸

技术编号：24891515 阅读：46 留言：0更新日期：2020-07-14 18:17

本发明专利技术提供了一种电子病历数据的主题切分方法、装置及系统，其中方法包括：获取电子病历数据的文本数据；输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。本发明专利技术可以对电子病历数据中文本数据进行精确的主题区分，以便方便针对不同主题文本数据进行实体关系抽取。

全部详细技术资料下载

【技术实现步骤摘要】
电子病历数据的主题切分方法、装置及系统
本申请涉及医学
，尤其涉及电子病历数据的主题切分方法、装置及系统。
技术介绍
随着电子技术的快速发展，大数据、电子病历在医院逐渐普及的情况下，医疗行业也产生海量的临床大数据，如何对临床大数据进行分析和挖掘也成为医疗信息化发展所面临的挑战。在结构化病历应用之前，医院保存大量非结构化的电子病历数据(非结构化的电子病历数据是指数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、XML、HTML、图像和音频/视频信息等)。这些非结构化的电子病历数据对于科研和临床都有着重要的意义，所以从非结构化的电子病历数据中筛选、抽取和分析出有价值内容成为一项非常重要的工作。
技术实现思路
申请人在研究过程中发现：由于电子病历数据的成段文本中有很多不同主题的文本数据，例如关于疾病的文本数据，关于检查的文本数据，关于症状的文本数据等，若直接对电子病历数据抽取实体关系则会出现许多问题，因此在对电子病历数据进行抽取实体关系之前，需要对电子病历数据进行主题切分。目前主要有三种对电子病历数据进行主题切分的方案：第一种：标点符号切分法。对于一段描述通常会很自然认为在一个句号或分号内一段话所要表达的意思应该是相关的。比如一段话：“高血压病史50余年，血压最高200/100mmHg，目前口服安博诺150mg、压氏达2.5mgqd控制血压。高脂血症病史10余年，一直服用他汀类药物，目前...

【技术保护点】
1.一种电子病历数据的主题切分方法，其特征在于，包括：/n获取电子病历数据的文本数据；/n输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；/n遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。/n

【技术特征摘要】
1.一种电子病历数据的主题切分方法，其特征在于，包括：
获取电子病历数据的文本数据；
输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；
遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

2.如权利要求1所述的方法，其特征在于，在获取电子病历数据的文本数据之后，还包括：
对所述电子病历数据的文本数据进行预处理操作。

3.如权利要求1所述的方法，其特征在于，还包括：
获取多个已为各个字符添加标注标签的文本数据样本；
利用多个文本数据样本通过CRF++开源工具训练；
在达到训练结束条件后，获得训练好的标注模型。

4.如权利要求1所述的方法，其特征在于，还包括：
分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；
其中，主题类别包括：症状、疾病、检查、检验和手术。

5.一种电子病历数据的主题切分装置，其特征在于，包括：
获取单元，用于获取电子病历数据的文本数据；
输入单元，用于输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；
切分单元，用于遍历所述文本数据中各个字符的标注标签，按照切分标注标签...

【专利技术属性】
技术研发人员：王利叶，胡文，胡可云，陈联忠，
申请(专利权)人：北京嘉和海森健康科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人