一种可信的病历结构化方法及系统技术方案

技术编号：13762394 阅读：122 留言：0更新日期：2016-09-27 17:17

本发明专利技术公开了一种可信的病历结构化方法及系统，该方法包括建立特征词数据集并赋予修饰词可信度，建立特征词关联图表，对描述语句进行分词并计算语句中每个特征名词的可信度，最后进行人工训练，得到描述语句的结构化表示。相比现有技术，本发明专利技术更适合计算机处理，大大提高了效率，同时通过标识数据可信度，使得结构化数据更容易做进一步处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电子病历领域，涉及对电子病历数据的处理和统计分析，尤其涉及一种可信的病历结构化方法及系统。
技术介绍
近年来，随着医疗信息化的发展，患者的病历也逐渐电子化，电子病历具有纸质病历所不具备的优点，例如便于保存、传阅、检索，可以对电子病历进行数据挖掘，进一步开发病历的价值。因此，如何有效利用电子病历数据是现在医疗信息化中的重要研究方向。电子病历中已有的结构化数据，包括数值型数据以及具有固定值集合的数据是比较利于数据挖掘的，例如年龄、性别、各种医学指标等，计算机比较好处理。但是，电子病历中还有一些描述性的信息，这些信息通常都是医生撰写的、用于描述病人状况的语言，这些语言比较随意，有时描述的比较模糊，和医生的具体撰写风格有关。但这些信息又比较重要，尤其是一些结论性的描述信息。由于这些描述信息没有进行结构化处理和存储，计算机处理起来很困难，无法对该类数据进行统计分析。现有技术中，对于这类信息的数据处理方法通常采用字符模式匹配的方法，以从中提取关键结构化数据。但是，模式匹配方法编写规则复杂，匹配程度低，无法对匹配数据进行可信度计算，无法结构化一些模糊性的描述数据(例如“疑似”)，导致查询的时候很难获取或排序这部分数据。
技术实现思路
本专利技术主要提供了一种可信的病历结构化方法及系统，通过对病历中的描
述性语言进行词性分类，以及赋予可信度值，从而使得这类描述性语言变换成结构化数据。为了达到上述目的，本专利技术提出的可信的病历结构化方法包括如下步骤：(1)定义特征词数据集并保存于数据库中，所述特征词数据中的每个特征词具有类别，所述类...

【技术保护点】
一种可信的病历结构化方法，其特征在于，该方法包括如下步骤：(1)定义特征词数据集并保存于数据库中，所述特征词数据中的每个特征词具有类别，所述类别包括：特征名词、修饰词；(2)为所述特征词数据集中的每个修饰词分别赋予一个缺省可信度，所述缺省可信度是一个0到1之间的数值；(3)建立特征词关联表，所述特征词关联表用于记录特征词数据集中每个特征名词与修饰词的关联可信度，所述关联可信度的初始值为相应修饰词的缺省可信度；(4)对于病历中的每一个描述语句，基于特征词数据集进行分词，得到特征词序列集合。对于该集合中的任意一个特征名词A0，获取A0和前一个特征名词或标点符号之间的修饰词，同时获取A0和后一个特征名词或标点符号之间的修饰词，设这些修饰词共有n个，分别为B1，B2，……，Bn，根据特征词关联表获取A0与Bi的关联可信度βi(1≤i≤n)，通过下述公式计算该描述语句中该特征名词A0的可信度β，即：β=(Σi=1nβi)/n;]]>(5)人工训练步骤，即如果一个描述语句中有一个特征名词的可信度大于0且小于1，则对该描述语句的可信度计算结果进行人工干预审核；然后将该...

【技术特征摘要】
1.一种可信的病历结构化方法，其特征在于，该方法包括如下步骤：(1)定义特征词数据集并保存于数据库中，所述特征词数据中的每个特征词具有类别，所述类别包括：特征名词、修饰词；(2)为所述特征词数据集中的每个修饰词分别赋予一个缺省可信度，所述缺省可信度是一个0到1之间的数值；(3)建立特征词关联表，所述特征词关联表用于记录特征词数据集中每个特征名词与修饰词的关联可信度，所述关联可信度的初始值为相应修饰词的缺省可信度；(4)对于病历中的每一个描述语句，基于特征词数据集进行分词，得到特征词序列集合。对于该集合中的任意一个特征名词A0，获取A0和前一个特征名词或标点符号之间的修饰词，同时获取A0和后一个特征名词或标点符号之间的修饰词，设这些修饰词共有n个，分别为B1，B2，……，Bn，根据特征词关联表获取A0与Bi的关联可信度βi(1≤i≤n)，通过下述公式计算该描述语句中该特征名词A0的可信度β，即： β = ( Σ i = 1 n β i ) / n ; ]]>(5)人工训练步骤，即如果一个描述语句中有一个特征名词的可信度大于0且小于1，则对该描述语句的可信度计算结果进行人工干预审核；然后将该描述语句中的每个特征名词和相应可信度组合构成该描述语句的结构化数据；(6)基于人工干预审核的结果，对特征词数据集和特征词关联表进行更新或修改。2.根据权利要求1所述的可信的病历结构化方法，其特征在于，所述特征名词是由符合世界卫生组织《疾病和有关健康问题的国际统计分类(ICD-10)》分类和命名的疾病名词、检验检查名词、诊断结论名词、药品名称组成的标准特征名词。3.根据权利要求1-2任意一项所述的可信的病历结构化方法，其特征在于，在数据库中建立非标准名词和标准特征名词的映射表，并且步骤4包括：根据该映射表将描述语句中的非标准名词转换为标准特征名词。4.根据权利要求1-3任意一项所述的可信的病历结构化方法，其特征在于，特征词数据集在建立以后，可以通人工训练的方式加入新的特征词，并赋予其类别。5.一种可信...

【专利技术属性】
技术研发人员：林学仁，蒋永，
申请(专利权)人：上海家好科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人