一种医疗项目名称对齐方法技术

技术编号:28559897 阅读:19 留言:0更新日期:2021-05-25 17:54
本发明专利技术涉及一种医疗项目名称对齐方法,包括:获取源文本中包括源项目的病历信息;获取病历信息对应的医嘱清单中的一个或多个目标项目,并计算每个目标项目的数量和项目频率;根据项目频率,确定源项目对应的排序为前N的目标项目,并计算每个目标项目的逆对齐频率;1<N<5,且N为整数;计算源项目与对应的目标项目的文本距离;根据文本距离、目标项目频率、逆对齐频率和预设的第一规则、预设的第二规则和预设的第三规则,得到训练后的模型;将待对齐的源文本输入训练后的模型,得到待对齐的源文本所对应的医嘱清单中的目标项目。

【技术实现步骤摘要】
一种医疗项目名称对齐方法
本专利技术涉及数据处理
,尤其涉及一种医疗项目名称对齐方法。
技术介绍
同一个医疗项目,在病历的各个文书中,经常会以不同的名称出现,例如:“腹部磁共振平扫”在医嘱文书中的名称为“腹部MR”,在收费清单中的名称为“磁共振平扫”,在检验单中的名称为“1.5MR(腹部)”。有效识别同一个医疗项目在不同文书中的名称,并进行对齐,对医疗信息管理及费用审核等系统起着关键作用。目前大部分方案仅仅使用编辑距离或最大公共子串这种字符串比对算法解决此类问题。仅采用字符串比对,很难解决医疗项目对齐的问题,比如:“腹部MR”和“腹部磁共振平扫”虽然是同一个项目,但二者的编辑距离非常大,高于“腹部CT平扫”和“腹部磁共振平扫”的编辑距离,很容易导致误判。另外,字符串比对的方法也无法解决1对多这类组套项目的问题。比如:医嘱中的“凝血组套”,对应着收费清单中的“血浆凝血酶原时间测定(PT)”、“凝血酶时间测定(TT)”、“活化部分凝血活酶时间测定(APTT)”、“血浆纤维蛋白原测定”等多个项目,而且,不同医院的组合项目所包含的子项目也可能存在不同。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供一种医疗项目名称对齐方法,以解决现有技术中所存在的问题。为解决该问题,第一方面,本专利技术提供了一种医疗项目名称对齐方法,所述医疗项目名称对齐方法包括:获取源文本中包括源项目的病历信息;获取所述病历信息对应的医嘱清单中的一个或多个目标项目,并计算每个所述目标项目的数量和项目频率;根据所述项目频率,确定源项目对应的排序为前N的目标项目,并计算每个目标项目的逆对齐频率;1<N<5,且N为整数;计算所述源项目与对应的目标项目的文本距离;根据所述文本距离、所述目标项目频率、所述逆对齐频率和预设的第一规则、预设的第二规则和预设的第三规则,得到训练后的模型;将待对齐的源文本输入所述训练后的模型,得到所述待对齐的源文本所对应的医嘱清单中的目标项目。优选的,所述根据所述文本距离、所述目标项目频率、所述逆对齐频率和预设的第一规则、预设的第二规则和预设的第三规则,得到训练后的模型具体包括:根据源项目对应的排序为前N的目标项目,确定源项目对应的第一目标项目和第二目标项目;所述第一目标项目的项目频率大于所述第二目标项目的项目频率;计算源项目和第一目标项目的第一文本距离以及所述第一源项目和所述第二目标项目的第二文本距离;当所述第一文本距离、所述第二文本距离和所述逆对齐频率满足预设的第一规则时,确定所述第一目标项目和所述源项目对齐。优选的,所述第一规则具体为:所述第一文本距离大于预设的第一阈值且所述第一文本距离大于预设的第二阈值与第二文本距离的乘积时,且所述第一目标项目的逆对齐频率大于预设的第三阈值。优选的,所述方法还包括:当所述第一文本距离、所述第二文本距离和所述逆对齐频率不满足预设的第一规则时,对所述源项目对应的目标项目按照项目频率进行排序,确定n个目标项目;计算所述源项目和对应的n个目标项目中每个目标项目的文本距离,得到所述源项目至所述n个目标项目的第一至第n文本距离;当第j个目标项目满足预设的第二规则时,确定所述第j个目标项目和所述源项目对齐;其中,j≤n。优选的,所述第二规则具体为:所述源项目与第j个目标项目的第j文本距离大于第四阈值且第j个目标项目的项目频率大于第五阈值。优选的,所述方法之后还包括:当第j个目标项目满足预设的第二规则时,分析项目频率排序在所述第j个目标项目后的每个目标项目,当第k个目标项目的项目频率与第j个目标项目的项目频率满足预设的第三规则时,判定所述第k个目标项目与所述源项目对齐;其中,k<j;重复执行,直至第x个目标项目的项目频率与第j个目标项目的项目频率不满足预设的第三规则时截止。优选的,所述第三规则具体为:所述第k个目标项目的项目频率与所述第j个目标项目的项目频率之差大于预设的第六阈值。优选的,所述将待对齐的源文本输入所述训练后的模型,得到所述待对齐的源文本所对应的医嘱清单中的目标项目具体包括:通过所述训练出的模型,计算每个待对齐的目标项目与源项目的对齐概率;根据所述对齐概率,确定所述待对齐的目标项目与源项目是否对齐。第二方面,本专利技术提供了一种设备,包括存储器和处理器,存储器用于存储程序,处理器用于执行第一方面任一所述的方法。第三方面,本专利技术提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一所述的方法。第四方面,本专利技术提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如第一方面任一所述的方法。通过应用本专利技术实施例提供的医疗项目名称对齐方法,基于BERT的语义匹配方案可以根据语义,而不仅仅是字符串特征进行医疗项目名称对齐判定。基于统计的特征,可以无需标注数据,即可实现文本对齐的判定。同时,基于统计特征的策略可以兼容不同组套项目在不同医院的项目不一致的问题。附图说明图1为本专利技术实施例一提供的医疗项目名称对齐方法流程示意图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的医疗项目名称对齐方法,在训练出模型后,可以在输入目标项目后,通过目标项目的概率,将目标项目和源项目对齐。图1为本专利技术实施例一提供的医疗项目名称对齐方法流程示意图。在图1中,步骤110至步骤150是用于训练模型,步骤160是通过训练后的模型,将医疗项目名称进行对齐。以下结合图1对本专利技术技术方案进行详述。步骤110,获取源文本中包括源项目的病历信息;其中,源文本可以是从医院的HIS系统得到的一系列的医嘱的集合,即医嘱列表,源项目可以是该医嘱中某个特定的医学名词,比如“腹部MR”。步骤120,获取病历信息对应的医嘱清单中的一个或多个目标项目,并计算每个目标项目的数量和项目频率;其中,病历信息是该些源文本对应的病历,该些病历中包括目标项目,比如“磁共振平扫”。目标项目的数量可以是包括目标项目的病历信息的数量。目标项目的项目频率可以通过公式(1)来进行计算:...

【技术保护点】
1.一种医疗项目名称对齐方法,其特征在于,所述医疗项目名称对齐方法包括:/n获取源文本中包括源项目的病历信息;/n获取所述病历信息对应的医嘱清单中的一个或多个目标项目,并计算每个所述目标项目的数量和项目频率;/n根据所述项目频率,确定源项目对应的排序为前N的目标项目,并计算每个目标项目的逆对齐频率;1<N<5,且N为整数;/n计算所述源项目与对应的目标项目的文本距离;/n根据所述文本距离、所述目标项目频率、所述逆对齐频率和预设的第一规则、预设的第二规则和预设的第三规则,得到训练后的模型;/n将待对齐的源文本输入所述训练后的模型,得到所述待对齐的源文本所对应的医嘱清单中的目标项目。/n

【技术特征摘要】
1.一种医疗项目名称对齐方法,其特征在于,所述医疗项目名称对齐方法包括:
获取源文本中包括源项目的病历信息;
获取所述病历信息对应的医嘱清单中的一个或多个目标项目,并计算每个所述目标项目的数量和项目频率;
根据所述项目频率,确定源项目对应的排序为前N的目标项目,并计算每个目标项目的逆对齐频率;1<N<5,且N为整数;
计算所述源项目与对应的目标项目的文本距离;
根据所述文本距离、所述目标项目频率、所述逆对齐频率和预设的第一规则、预设的第二规则和预设的第三规则,得到训练后的模型;
将待对齐的源文本输入所述训练后的模型,得到所述待对齐的源文本所对应的医嘱清单中的目标项目。


2.根据权利要求1所述的方法,其特征在于,所述根据所述文本距离、所述目标项目频率、所述逆对齐频率和预设的第一规则、预设的第二规则和预设的第三规则,得到训练后的模型具体包括:
根据源项目对应的排序为前N的目标项目,确定源项目对应的第一目标项目和第二目标项目;所述第一目标项目的项目频率大于所述第二目标项目的项目频率;
计算源项目和第一目标项目的第一文本距离以及所述第一源项目和所述第二目标项目的第二文本距离;
当所述第一文本距离、所述第二文本距离和所述逆对齐频率满足预设的第一规则时,确定所述第一目标项目和所述源项目对齐。


3.根据权利要求2所述的方法,其特征在于,所述第一规则具体为:
所述第一文本距离大于预设的第一阈值且所述第一文本距离大于预设的第二阈值与第二文本距离的乘积时,且所述第一目标项目的逆对齐频率大于预设的第三阈值。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述第一文本距离、所述第二文本距离和所述逆对齐频率不满足预设的第一规则时,对所述源项目对应的目标项目按照项目频率进行排序,确定n个目标项目...

【专利技术属性】
技术研发人员:王博刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1