本发明专利技术提供一种医疗健康案例知识匹配方法和系统,涉及数据处理技术领域。本发明专利技术首先获取医疗健康案例数据和外部标注性特征信息,并对所述医疗健康案例数据和所述外部标注性特征信息进行预处理;对经过预处理后的医疗健康案例数据进行特征选择处理,得到关键特征;再基于遗传算法获取关键特征的特征权重;基于所述特征权重和Pearson参数r法获取初步案件相似度;最后基于所述初步案件相似度和所述经过预处理后外部标注性特征信息获取最终案例相似度,基于最终案例相似度得到相似医疗健康案例。本发明专利技术引入外部标注性特征信息,能有效的降低质量差、水平低的信息对检索结果的影响,在一定程度上有效地提高了检索结果和健康诊疗决策的准确度。
Knowledge matching method and system of medical and health cases
【技术实现步骤摘要】
医疗健康案例知识匹配方法和系统
本专利技术涉及数据处理
,具体涉及一种医疗健康案例知识匹配方法和系统。
技术介绍
随着医疗信息化的进一步推进,医疗信息资源的规模也随之庞大起来,这为医疗信息资源管理的发展提出来挑战,也为辅助决策专家系统的性能改进提供了思路,例如基于案例的推理。以CBR技术为核心的案例推理系统能够有效地实现人类推理思维的模拟,成为医疗智能决策支持系统的新的发展方向。目前常见的CBR技术为基于集成角度与距离的相似案例检索方法改进的案例推理流程。该技术方案是在医疗信息化的环境下,将角度与距离的相似度检索方法集成为一个新的相似度检索方法,并通过收集的实验数据,对该方法的实验结果与仅基于角度或距离的相似度检索方法的实验结果进行对比,验证该技术方案所用的相似度检索方法更加有效,最后提出这种基于集成角度与距离的相似案例检索方法的新的案例推理流程,利用这种改进的案例推理流程来检索相似的案例。然而,大数据时代的来临,促使医疗类信息资源的数量出现爆发式增长,在这些大量的医疗数据中总会有利用率低,质量差,水平低下的医疗诊断信息。然而这些质量差、水平低的信息可能误导医生进行医疗诊断,损害诊断决策的正确性,导致案例检索的准确度低。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种医疗健康案例知识匹配方法和系统,解决了现有的案例检索的准确度低的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供一种医疗健康案例知识匹配方法,所述方法由计算机执行,包括以下步骤:S1、获取医疗健康案例数据和外部标注性特征信息,并对所述医疗健康案例数据和所述外部标注性特征信息进行预处理;S2、对经过预处理后的医疗健康案例数据进行特征选择处理,得到关键特征;S3、基于遗传算法获取所述关键特征的特征权重;S4、基于所述特征权重和Pearson参数r法获取初步案件相似度;S5、基于所述初步案件相似度和所述经过预处理后外部标注性特征信息获取最终案例相似度,基于最终案例相似度得到相似医疗健康案例。优选的,所述预处理包括标准化处理,所述标准化处理包括0-1标准化方法和最大最小值0-1标准化方法。优选的,在S2中,所述特征选择处理的方法包括:计算每个特征的F-Score值,并根据F-Score值进行降序排序;确定一个被选特征子集,利用SVM的分类正确率对当前特征集合进行评估;迭代,每一次从未被选择的特征中选取一个F-Score值最大的特征加入上一阶段的待选集合中,再利用SVM对当前集合进行评价;迭代完所有特征之后,根据SVM的分类准确度获取关键特征。优选的,所述F-Score值计算公式包括:其中:n+为正类样本的个数,n-为负类样本的个数,为第j个特征在全部医疗健康案例数据样本上的特征平均值;为在正类样本中的特征平均值,为在负类样本中的特征平均值;代表的是第i个正类样本中第j个特征的特征值,为第i个负类样本中第j个特征的特征值;公式中的分子表明的是正类样本和负类样本之间的差别,公式中的分母部分则表明的是每个样本类的总差别。优选的,在S4中,Pearson参数r法的计算公式包括:x和y表示向量空间中的两个医疗健康病例,n是向量空间的维数;x=(a1,a2,a3,……,ai,……,an);y=(b1,b2,b3,……,bi,……,bn);S(x,y)表示x和y之间的相似性。优选的,在S5中,所述最终案例相似度的计算公式包括:P=Wi*Xi其中:S为仅考虑案例内在属性的计算结果;P为两个外部特征属性的集成结果;Wi为不同属性的权重;Sp则为考虑外部标注性属性的集成结果。本专利技术还提供一种医疗健康案例知识匹配系统,所述系统包括计算机,所述计算机包括:至少一个存储单元;至少一个处理单元;其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:S1、获取医疗健康案例数据和外部标注性特征信息,并对所述医疗健康案例数据和所述外部标注性特征信息进行预处理;S2、对经过预处理后的医疗健康案例数据进行特征选择处理,得到关键特征;S3、基于遗传算法获取所述关键特征的特征权重;S4、基于所述特征权重和Pearson参数r法获取初步案件相似度;S5、基于所述初步案件相似度和所述经过预处理后外部标注性特征信息获取最终案例相似度,基于最终案例相似度得到相似医疗健康案例。(三)有益效果本专利技术提供了一种医疗健康案例知识匹配方法和系统。与现有技术相比,具备以下有益效果:本专利技术首先获取医疗健康案例数据和外部标注性特征信息,并对所述医疗健康案例数据和所述外部标注性特征信息进行预处理;对经过预处理后的医疗健康案例数据进行特征选择处理,得到关键特征;再基于遗传算法获取关键特征的特征权重;基于所述特征权重和Pearson参数r法获取初步案件相似度;最后基于所述初步案件相似度和所述经过预处理后外部标注性特征信息获取最终案例相似度,基于最终案例相似度得到相似医疗健康案例。本专利技术中运用Pearson参数r相似度度量两个医疗健康案例的相似度,提升了信息检索的准确率和加快了信息检索的速度。本专利技术引入外部标注性特征信息,能有效的降低质量差、水平低的信息对检索结果的影响,在一定程度上有效地提高了检索结果和健康诊疗决策的准确度。同时本专利技术综合考虑案例内外部特征信息,检索出来的案例相似度更高,将更有利于后面工作人员的使用;同时外部标注性特征信息的增加使案例在权威和评价方面更加具体,会让案例质量变得更好。本专利技术的医疗健康案例知识匹配方法和系统能够快速、精确地找到一个合适患者的诊疗方案,为医院诊疗决策提供知识支持。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的一种医疗健康案例知识匹配方法的框图;图2为本专利技术实施例中ROC曲线图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请实施例通过提供一种医疗健康案例知识匹配方法和系统,解决了现有的医疗健康案例检索准确度低的问题,实现提高医疗健康案例检索的准确度。本申请实施例中的技术方案为解本文档来自技高网...
【技术保护点】
1.一种医疗健康案例知识匹配方法,其特征在于,所述方法由计算机执行,包括以下步骤:/nS1、获取医疗健康案例数据和外部标注性特征信息,并对所述医疗健康案例数据和所述外部标注性特征信息进行预处理;/nS2、对经过预处理后的医疗健康案例数据进行特征选择处理,得到关键特征;/nS3、基于遗传算法获取所述关键特征的特征权重;/nS4、基于所述特征权重和Pearson参数r法获取初步案件相似度;/nS5、基于所述初步案件相似度和所述经过预处理后外部标注性特征信息获取最终案例相似度,基于最终案例相似度得到相似医疗健康案例。/n
【技术特征摘要】
1.一种医疗健康案例知识匹配方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取医疗健康案例数据和外部标注性特征信息,并对所述医疗健康案例数据和所述外部标注性特征信息进行预处理;
S2、对经过预处理后的医疗健康案例数据进行特征选择处理,得到关键特征;
S3、基于遗传算法获取所述关键特征的特征权重;
S4、基于所述特征权重和Pearson参数r法获取初步案件相似度;
S5、基于所述初步案件相似度和所述经过预处理后外部标注性特征信息获取最终案例相似度,基于最终案例相似度得到相似医疗健康案例。
2.如权利要求1所述的医疗健康案例知识匹配方法,其特征在于,所述预处理包括标准化处理,所述标准化处理包括0-1标准化方法和最大最小值0-1标准化方法。
3.如权利要求1所述的医疗健康案例知识匹配方法,其特征在于,在S2中,所述特征选择处理的方法包括:
计算每个特征的F-Score值,并根据F-Score值进行降序排序;
确定一个被选特征子集,利用SVM的分类正确率对当前特征集合进行评估;
迭代,每一次从未被选择的特征中选取一个F-Score值最大的特征加入上一阶段的待选集合中,再利用SVM对当前集合进行评价;
迭代完所有特征之后,根据SVM的分类准确度获取关键特征。
4.如权利要求3所述的医疗健康案例知识匹配方法,其特征在于,所述F-Score值计算公式包括:
其中:
n+为正类样本的个数,n-为负类样本的个数,为第j个特征在全部医疗健康案例数据样本上的特征平均值;为在正类样本中的特征平均值,为在负类样本中的特征平均值;代表的是第i个正类样本中第j个特征的特征值,为第i个负类样本...
【专利技术属性】
技术研发人员:顾东晓,赵旺,梁昌勇,王晓玉,杨雪洁,苏凯翔,陆文星,赵树平,欧阳纯萍,刘永彬,李晓玥,鲍超,丁庆秀,解玉光,苗夏雨,周晨,张波达,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。