电子病历数据的主题切分方法、装置及系统制造方法及图纸

技术编号:24891515 阅读:36 留言:0更新日期:2020-07-14 18:17
本发明专利技术提供了一种电子病历数据的主题切分方法、装置及系统,其中方法包括:获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。本发明专利技术可以对电子病历数据中文本数据进行精确的主题区分,以便方便针对不同主题文本数据进行实体关系抽取。

【技术实现步骤摘要】
电子病历数据的主题切分方法、装置及系统
本申请涉及医学
,尤其涉及电子病历数据的主题切分方法、装置及系统。
技术介绍
随着电子技术的快速发展,大数据、电子病历在医院逐渐普及的情况下,医疗行业也产生海量的临床大数据,如何对临床大数据进行分析和挖掘也成为医疗信息化发展所面临的挑战。在结构化病历应用之前,医院保存大量非结构化的电子病历数据(非结构化的电子病历数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、XML、HTML、图像和音频/视频信息等)。这些非结构化的电子病历数据对于科研和临床都有着重要的意义,所以从非结构化的电子病历数据中筛选、抽取和分析出有价值内容成为一项非常重要的工作。
技术实现思路
申请人在研究过程中发现:由于电子病历数据的成段文本中有很多不同主题的文本数据,例如关于疾病的文本数据,关于检查的文本数据,关于症状的文本数据等,若直接对电子病历数据抽取实体关系则会出现许多问题,因此在对电子病历数据进行抽取实体关系之前,需要对电子病历数据进行主题切分。目前主要有三种对电子病历数据进行主题切分的方案:第一种:标点符号切分法。对于一段描述通常会很自然认为在一个句号或分号内一段话所要表达的意思应该是相关的。比如一段话:“高血压病史50余年,血压最高200/100mmHg,目前口服安博诺150mg、压氏达2.5mgqd控制血压。高脂血症病史10余年,一直服用他汀类药物,目前口服立普妥20mgqn。”第一个句号之前为有关高血压的文本数据,安博诺为治疗高血压的药物。第一句号后面有关高脂血症的文本数据,立普妥为用来治疗高脂血症的药物。因此第一种解决方案是单纯利用文本中的标点符号进行处理,也即按照句号和分号对电子病历数据进行拆分。对于上一段描述:在采用标点符号切分法后切分成两个主题文本数据,一个主题文本数据为“高血压病史50余年,血压最高200/100mmHg,目前口服安博诺150mg、压氏达2.5mgqd控制血压。”;另一主题文本数据为“高脂血症病史10余年,一直服用他汀类药物,目前口服立普妥20mgqn。”但是,标点符号切分法对段落标点符号的规范性要求非常高。但是在现实中并不是每一个医生在写电子病历时都能使得标点符号规范化。因此,本方案在使用在电子病历本身的标点符号出现问题时,错误率较高。例如,电子病历为“1天前炒菜时出现头晕,伴恶心、呕吐、大汗。无胸痛、胸闷、心悸”的情况下,那么按照标点符号切分法切分段落后,会将其切分成两个主题文本数据。但是,从字面理解中我们知道这两句话都是对症状的相关性描述,需要切分为一个主题文本数据。此时,标点符号切分法便出现问题。第二种:标志切分法。由于可以利用分词工具对文本进行分词标注,所以对于电子病历中一段文本可以确定哪些词语为疾病实体,哪些词语为手术实体。因此可以按照疾病为标志,对段落进行划分。即,一段文本遇到疾病实体便将一个疾病实体和另一个疾病实体之间的语句归于第一个疾病中。比如:“30年前患有白内障。15年前行白内障手术。肠易激综合征7年,胃溃疡病史10余年。”如果按照标志切分法进行划分则会划分成为三个主题文本数据:“30年前患有白内障。15年前行白内障手术。”、“肠易激综合征7年”和“胃溃疡病史10余年。”但是,标志切分法的问题为症状和疾病有时候会出现混淆,如“患者患有高血压10年,不伴胸闷。”,那么标志切分法会把它分成两个主题文本数据:疾病和症状,可事实上并不是这样:因为胸闷也是对高血压的描述。第三种:标点符号切分法和标志切分法的结合方法。结合标点符号切分法和标志切分法,先对一段文本按照标点符号进行划分。以“颅脑CT示多发腔梗?血管间隙、脑干梗塞?”为例,则划分为“颅脑CT示多发腔梗?”,“血管间隙、脑干梗塞?”。然后,按照标志切分法进行第二次切分,得到“颅脑CT示多发腔梗?”,“血管间隙、脑干梗塞?”。但是,对“血管间隙、脑干梗塞?”而言,其也是对“颅脑CT示多发腔梗?”的相关内容,却被拆分为两个主题文本数据。因此,现有三种切分方法并不能准确的解决精准进行主题切分的需求。在电子病历数据中不可避免的会出现一段多主题共存的文本数据,当主题文本数据切分错误的时候,后面再针对不同主题文本数据进行信息抽取也会受到很大影响,因此对文本数据进行精准切分是后续进行实体关系抽取的关键。鉴于此,本申请提供一种电子病历数据的主题切分方法、装置及系统,可以对电子病历数据中文本数据进行精确的主题区分,以便方便针对不同主题文本数据进行实体关系抽取。为了实现上述目的,本专利技术提供了下述技术特征:一种电子病历数据的主题切分方法,包括:获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。可选的,在获取电子病历数据的文本数据之后,还包括:对所述电子病历数据的文本数据进行预处理操作。可选的,还包括:获取多个已为各个字符添加标注标签的文本数据样本;利用多个文本数据样本通过CRF++开源工具训练;在达到训练结束条件后,获得训练好的标注模型。可选的,还包括:分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;其中,主题类别包括:症状、疾病、检查、检验和手术。一种电子病历数据的主题切分装置,包括:获取单元,用于获取电子病历数据的文本数据;输入单元,用于输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;切分单元,用于遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。可选的,在获取单元之后,还包括:预处理单元,用于对所述电子病历数据的文本数据进行预处理操作。可选的,还包括:训练单元,用于获取多个已为各个字符添加标注标签的文本数据样本;利用多个文本数据样本通过CRF++开源工具训练;在达到训练结束条件后,获得训练好的标注模型。可选的,还包括:分类单元,用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;其中,主题类别包括:症状、疾病、检查、检验和手术。一种电子病历数据的主题切分系统,包括:数据库服务器,用于存储电子病历数据;服务器,用于从数据库服务器获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍本文档来自技高网...

【技术保护点】
1.一种电子病历数据的主题切分方法,其特征在于,包括:/n获取电子病历数据的文本数据;/n输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;/n遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。/n

【技术特征摘要】
1.一种电子病历数据的主题切分方法,其特征在于,包括:
获取电子病历数据的文本数据;
输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。


2.如权利要求1所述的方法,其特征在于,在获取电子病历数据的文本数据之后,还包括:
对所述电子病历数据的文本数据进行预处理操作。


3.如权利要求1所述的方法,其特征在于,还包括:
获取多个已为各个字符添加标注标签的文本数据样本;
利用多个文本数据样本通过CRF++开源工具训练;
在达到训练结束条件后,获得训练好的标注模型。


4.如权利要求1所述的方法,其特征在于,还包括:
分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。


5.一种电子病历数据的主题切分装置,其特征在于,包括:
获取单元,用于获取电子病历数据的文本数据;
输入单元,用于输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
切分单元,用于遍历所述文本数据中各个字符的标注标签,按照切分标注标签...

【专利技术属性】
技术研发人员:王利叶胡文胡可云陈联忠
申请(专利权)人:北京嘉和海森健康科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1