一种可信的病历结构化方法及系统技术方案

技术编号:13762394 阅读:111 留言:0更新日期:2016-09-27 17:17
本发明专利技术公开了一种可信的病历结构化方法及系统,该方法包括建立特征词数据集并赋予修饰词可信度,建立特征词关联图表,对描述语句进行分词并计算语句中每个特征名词的可信度,最后进行人工训练,得到描述语句的结构化表示。相比现有技术,本发明专利技术更适合计算机处理,大大提高了效率,同时通过标识数据可信度,使得结构化数据更容易做进一步处理。

【技术实现步骤摘要】

本专利技术属于电子病历领域,涉及对电子病历数据的处理和统计分析,尤其涉及一种可信的病历结构化方法及系统
技术介绍
近年来,随着医疗信息化的发展,患者的病历也逐渐电子化,电子病历具有纸质病历所不具备的优点,例如便于保存、传阅、检索,可以对电子病历进行数据挖掘,进一步开发病历的价值。因此,如何有效利用电子病历数据是现在医疗信息化中的重要研究方向。电子病历中已有的结构化数据,包括数值型数据以及具有固定值集合的数据是比较利于数据挖掘的,例如年龄、性别、各种医学指标等,计算机比较好处理。但是,电子病历中还有一些描述性的信息,这些信息通常都是医生撰写的、用于描述病人状况的语言,这些语言比较随意,有时描述的比较模糊,和医生的具体撰写风格有关。但这些信息又比较重要,尤其是一些结论性的描述信息。由于这些描述信息没有进行结构化处理和存储,计算机处理起来很困难,无法对该类数据进行统计分析。现有技术中,对于这类信息的数据处理方法通常采用字符模式匹配的方法,以从中提取关键结构化数据。但是,模式匹配方法编写规则复杂,匹配程度低,无法对匹配数据进行可信度计算,无法结构化一些模糊性的描述数据(例如“疑似”),导致查询的时候很难获取或排序这部分数据。
技术实现思路
本专利技术主要提供了一种可信的病历结构化方法及系统,通过对病历中的描
述性语言进行词性分类,以及赋予可信度值,从而使得这类描述性语言变换成结构化数据。为了达到上述目的,本专利技术提出的可信的病历结构化方法包括如下步骤:(1)定义特征词数据集并保存于数据库中,所述特征词数据中的每个特征词具有类别,所述类别包括:特征名词、修饰词;(2)为所述特征词数据集中的每个修饰词分别赋予一个缺省可信度,所述缺省可信度是一个0到1之间的数值;(3)建立特征词关联表,所述特征词关联表用于记录特征词数据集中每个特征名词与修饰词的关联可信度,所述关联可信度的初始值为相应修饰词的缺省可信度;(4)对于病历中的每一个描述语句,基于特征词数据集进行分词,得到特征词序列集合。对于该集合中的任意一个特征名词A0,获取A0和前一个特征名词或标点符号之间的修饰词,同时获取A0和后一个特征名词或标点符号之间的修饰词,设这些修饰词共有n个,分别为B1,B2,……,Bn,根据特征词关联表获取A0与Bi的关联可信度βi(1≤i≤n),通过下述公式计算该描述语句中该特征名词A0的可信度β,即: β = ( Σ i = 1 n β i ) / n ; ]]>(5)人工训练步骤,即如果一个描述语句中有一个特征名词的可信度大于0且小于1,则对该描述语句的可信度计算结果进行人工干预审核;然后将该描述语句中的每个特征名词和相应可信度组合构成该描述语句的结构化数据;(6)基于人工干预审核的结果,对特征词数据集和特征词关联表进行更新或修改。进一步地,所述特征名词是由符合世界卫生组织《疾病和有关健康问题的国际统计分类(ICD-10)》分类和命名的疾病名词、检验检查名词、诊断结论名词、药品名称组成的标准特征名词。进一步地,在数据库中建立非标准名词和标准特征名词的映射表,并且步骤4包括:根据该映射表将描述语句中的非标准名词转换为标准特征名词。进一步地,特征词数据集在建立以后,可以通人工训练的方式加入新的特征词,并赋予其类别。本专利技术还提出了一种可信的病历结构化系统,该系统包括:定义模块,用于定义特征词数据集并保存于数据库中,所述特征词数据中的每个特征词具有类别,所述类别包括:特征名词、修饰词;可信度赋值模块,用于为所述特征词数据集中的每个修饰词分别赋予一个缺省可信度,所述缺省可信度是一个0到1之间的数值;建表模块,用于建立特征词关联表,所述特征词关联表用于记录特征词数据集中每个特征名词与修饰词的关联可信度,所述关联可信度的初始值为相应修饰词的缺省可信度;分析模块,用于对于病历中的每一个描述语句,基于特征词数据集进行分词,得到特征词序列集合。并且对于该集合中的任意一个特征名词A0,获取A0和前一个特征名词或标点符号之间的修饰词,同时获取A0和后一个特征名词或标点符号之间的修饰词,设这些修饰词共有n个,分别为B1,B2,……,Bn,根据特征词关联表获取A0与Bi的关联可信度βi(1≤i≤n),通过下述公式计算该描述语句中该特征名词A0的可信度β,即: β = ( Σ i = 1 n β i ) / n ; ]]>人工训练和组合模块,用于当一个描述语句中有一个特征名词的可信度大于0且小于1时,对该描述语句的可信度计算结果进行人工干预审核;然后将该描述语句中的每个特征名词和相应可信度组合构成该描述语句的结构化数据;更新模块,用于基于人工干预审核的结果,对特征词数据集和特征词关联表进行更新或修改。本专利技术的有益效果是:相比传统的人工方法,本专利技术更适合计算机处理,大大提高效率,同时相比模式匹配数据提取的方法,增加了提取数据的可信度计算,并可以通过人工训练更适合的特征词和关联关系来提高病历数据结构化的可信度。对标识可信度的数据,更很容易根据数据的可信度对检索结果进行排序,更容易做进一步处理。【附图说明】此处所说明的附图是用来提供对本专利技术的进一步理解,构成本申请的一部分,但并不构成对本专利技术的不当限定,在附图中:图1是本专利技术方法的示意图。【具体实施方式】下面将结合附图以及具体实施例来详细说明本专利技术,其中的示意性实施例以及说明仅用来解释本专利技术,但并不作为对本专利技术的不当限定。本专利技术的主要思想是,定义描述性语言中可能出现的特征词及其类别,对可能出现的修饰词赋予可信度,对病历中的描述性语言进行分词,对分词后的特征词序列进行转换和可信度计算,从而得到结构化的数据。参见图1,本专利技术的可信病历结构化方法具体步骤如下:(1)定义特征词数据集,每个特征词具有类别,所述类别包括:特征名词、修饰词。并将该特征词数据集(包括各个特征词及其相应类别)保存在数据库中。为了对病历中的描述性语言进行结构化,我们首先需要定义描述性语言中可能出现的重要的特征词,这些重要的特征词有上述两种类别。其中特征名词由符合世界卫生组织《疾病和有关健康问题的国际统计分类(ICD-10)》分类和命名的疾病名词、检验检查名词、诊断结论名词、药品名称组成。修饰词由字典修饰词组成。举例而言,病历中出现描述性语言:“疑似高血压”。这里,“高血压”是一个特征名词,“疑似”是一个修饰词。同理,描述性语言“是糖尿病不是心脏病”,这里“是”和“不是”都是修饰词,“糖尿病”和“心脏病”都是特征名词。需要说明的是,特征词数据集中的特征名本文档来自技高网...

【技术保护点】
一种可信的病历结构化方法,其特征在于,该方法包括如下步骤:(1)定义特征词数据集并保存于数据库中,所述特征词数据中的每个特征词具有类别,所述类别包括:特征名词、修饰词;(2)为所述特征词数据集中的每个修饰词分别赋予一个缺省可信度,所述缺省可信度是一个0到1之间的数值;(3)建立特征词关联表,所述特征词关联表用于记录特征词数据集中每个特征名词与修饰词的关联可信度,所述关联可信度的初始值为相应修饰词的缺省可信度;(4)对于病历中的每一个描述语句,基于特征词数据集进行分词,得到特征词序列集合。对于该集合中的任意一个特征名词A0,获取A0和前一个特征名词或标点符号之间的修饰词,同时获取A0和后一个特征名词或标点符号之间的修饰词,设这些修饰词共有n个,分别为B1,B2,……,Bn,根据特征词关联表获取A0与Bi的关联可信度βi(1≤i≤n),通过下述公式计算该描述语句中该特征名词A0的可信度β,即:β=(Σi=1nβi)/n;]]>(5)人工训练步骤,即如果一个描述语句中有一个特征名词的可信度大于0且小于1,则对该描述语句的可信度计算结果进行人工干预审核;然后将该描述语句中的每个特征名词和相应可信度组合构成该描述语句的结构化数据;(6)基于人工干预审核的结果,对特征词数据集和特征词关联表进行更新或修改。...

【技术特征摘要】
1.一种可信的病历结构化方法,其特征在于,该方法包括如下步骤:(1)定义特征词数据集并保存于数据库中,所述特征词数据中的每个特征词具有类别,所述类别包括:特征名词、修饰词;(2)为所述特征词数据集中的每个修饰词分别赋予一个缺省可信度,所述缺省可信度是一个0到1之间的数值;(3)建立特征词关联表,所述特征词关联表用于记录特征词数据集中每个特征名词与修饰词的关联可信度,所述关联可信度的初始值为相应修饰词的缺省可信度;(4)对于病历中的每一个描述语句,基于特征词数据集进行分词,得到特征词序列集合。对于该集合中的任意一个特征名词A0,获取A0和前一个特征名词或标点符号之间的修饰词,同时获取A0和后一个特征名词或标点符号之间的修饰词,设这些修饰词共有n个,分别为B1,B2,……,Bn,根据特征词关联表获取A0与Bi的关联可信度βi(1≤i≤n),通过下述公式计算该描述语句中该特征名词A0的可信度β,即: β = ( Σ i = 1 n β i ) / n ; ]]>(5)人工训练步骤,即如果一个描述语句中有一个特征名词的可信度大于0且小于1,则对该描述语句的可信度计算结果进行人工干预审核;然后将该描述语句中的每个特征名词和相应可信度组合构成该描述语句的结构化数据;(6)基于人工干预审核的结果,对特征词数据集和特征词关联表进行更新或修改。2.根据权利要求1所述的可信的病历结构化方法,其特征在于,所述特征名词是由符合世界卫生组织《疾病和有关健康问题的国际统计分类(ICD-10)》分类和命名的疾病名词、检验检查名词、诊断结论名词、药品名称组成的标准特征名词。3.根据权利要求1-2任意一项所述的可信的病历结构化方法,其特征在于,在数据库中建立非标准名词和标准特征名词的映射表,并且步骤4包括:根据该映射表将描述语句中的非标准名词转换为标准特征名词。4.根据权利要求1-3任意一项所述的可信的病历结构化方法,其特征在于,特征词数据集在建立以后,可以通人工训练的方式加入新的特征词,并赋予其类别。5.一种可信...

【专利技术属性】
技术研发人员:林学仁蒋永
申请(专利权)人:上海家好科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1