一种分类编码确定方法、装置、设备及存储介质制造方法及图纸

技术编号:27940260 阅读:26 留言:0更新日期:2021-04-02 14:21
本发明专利技术实施例公开了一种分类编码确定方法、装置、设备及存储介质。该方法包括:获取待确定分类编码的医学文本、及与医学文本关联的已构建向量,根据已构建向量确定医学文本的文本向量;将文本向量输入至已训练完成的第一编码分类模型,根据第一编码分类模型的输出结果确定医学文本的分类编码;其中,已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量,目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。本发明专利技术实施例的技术方案,可以自动且准确地确定医学文本的分类编码。

【技术实现步骤摘要】
一种分类编码确定方法、装置、设备及存储介质
本专利技术实施例涉及计算机应用
,尤其涉及一种分类编码确定方法、装置、设备及存储介质。
技术介绍
数据标准化是医疗信息化过程中的重要内容之一,但是,由于医学文本众多且写作人的不规范性,很难对未结构化甚至是结构化的医学文本进行分析、处理以及应用到下游任务中。以数据标准化中的国际疾病分类(InternationalClassificationofDiseases,ICD)编码的确定过程为例,目前主要是由经过专门培训的病案室人员或相关医务工作者在阅读医学文本之后确定其对应的ICD编码。显然,上述通过人工确定ICD编码的过程需要高强度的劳力,成本昂贵且容易出错。
技术实现思路
本专利技术实施例提供了一种分类编码确定方法、装置、设备及存储介质,以实现自动确定分类编码的效果。第一方面,本专利技术实施例提供了一种分类编码确定方法,可以包括:获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量,根据已构建向量确定医学文本的文本向量;将文本向量输入至已训练完成的第一编码分类模型,并根据第一编码分类模型的输出结果确定医学文本的分类编码;其中,已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量,目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱;其中,文本映射关系包括映射文本和与映射文本对应的分类编码间的映射关系,映射文本包括疾病名称;语素包括与疾病名称关联的疾病信息的语素,疾病信息包括方位词、发病部位和/或症状名称;中间知识图谱包括记载有由历史文本、与历史文本对应的历史编码、与历史文本对应的文本编码映射关系中记载的疾病信息间的映射关系形成的三元组。第二方面,本专利技术实施例还提供了一种分类编码确定装置,可以包括:文本向量确定模块,用于获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量,根据已构建向量确定医学文本的文本向量;分类编码确定模块,用于将文本向量输入至已训练完成的第一编码分类模型,根据第一编码分类模型的输出结果确定医学文本的分类编码;其中,已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量,目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱;其中,文本映射关系包括映射文本和与映射文本对应的分类编码间的映射关系,映射文本包括疾病名称;语素包括与疾病名称关联的疾病信息的语素,疾病信息包括方位词、发病部位和/或症状名称;中间知识图谱包括记载有由历史文本、与历史文本对应的历史编码、与历史文本对应的文本编码映射关系中记载的疾病信息间的映射关系形成的三元组。第三方面,本专利技术实施例还提供了一种分类编码确设备,可以包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本专利技术任意实施例所提供的分类编码确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本专利技术任意实施例所提供的分类编码确定方法。本专利技术实施例的技术方案,通过将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱中,并对由此得到的目标知识图谱进行向量化得到已构建向量,这使得相关性较强的语素对应的已构建向量间的向量距离比较小,即在根据已构建向量确定医学文本的文本向量时,相关性较强的医学文本的文本向量间的向量距离也比较小,或者说与医学文本的相关性较强的训练文本的训练向量与文本向量间的向量距离也比较小;那么,后续将该文本向量输入至已训练完成的第一编码分类模型,由于第一编码分类模型可以将该文本向量和各训练向量进行比较,并将与该文本向量最为接近的训练向量对应的标注编码进行输出,因此根据第一编码分类模型的输出结果可自动且准确地确定医学文本的分类编码。上述技术方案,解决了通过人工确定分类编码的过程中存在的劳力强度过高、成本昂贵并且容易出错的问题,而且通过将语素构建到中间知识图谱的方式提高了相关性较强的语素在已构建向量中的相似度,由此实现了自动且准确地确定医学文本的分类编码的效果。附图说明图1是本专利技术实施例一中的一种分类编码确定方法的流程图;图2是本专利技术实施例二中的一种分类编码确定方法的流程图;图3是本专利技术实施例三中的一种分类编码确定方法的流程图;图4是本专利技术实施例四中的一种分类编码确定方法的流程图;图5是本专利技术实施例五中的一种分类编码确定方法的流程图;图6是本专利技术实施例六中的一种分类编码确定方法的流程图;图7是本专利技术实施例七中的一种分类编码确定装置的结构框图;图8是本专利技术实施例八中的一种分类编码确设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在介绍本专利技术实施例之前,先对本专利技术实施例的应用场景进行示例性说明:ICD是由世界卫生组织(WorldHealthOrganization,WHO)制定的国际统一的疾病分类方法,它主要是根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并且利用编码进行表示的方式。目前,全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,其保留了ICD的简称,并被统称为ICD-10。为了解决上述通过人工确定ICD编码的过程中存在的劳力高强、成本昂贵且容易出错的问题,本专利技术各实施例提出了一种可以自动确定分类编码的分类编码确定方法,该分类编码即为ICD编码,该方法的具体实现过程如下所述。实施例一图1是本专利技术实施例一中提供的一种分类编码确定方法的流程图。本实施例可适用于自动确定医学文本的分类编码的情况。该方法可以由本专利技术实施例提供的分类编码确定装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在分类编码确定设备上,该设备可以是各种用户终端或服务器。参见图1,本专利技术实施例的方法具体包括如下步骤:S110、获取待确定分类编码的医学文本、及与医学文本关联的已构建向量,根据已构建向量确定医学文本的文本向量。其中,医学文本可以是与医学相关的且其分类编码待确定的文本,如医护人员的疾病诊断文本等。该医学文本中可以包括方位词、发病部位、症状名称、疾病名称等等,比如“左上肢骨折”中方位词是“左”、发病部位是“上肢”、且疾病名称是“骨折”。已构建向量是与医学文本关联的且已构建完成的向量,其可以表示出什么样的文本对应什么样的向量,因此根据已构建向量可以确定医学文本的文本向量。在实际应用中,可选的,若在已构建向量中存在与医学文本相本文档来自技高网...

【技术保护点】
1.一种分类编码确定方法,其特征在于,包括:/n获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量,根据所述已构建向量确定所述医学文本的文本向量;/n将所述文本向量输入至已训练完成的第一编码分类模型,并根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码;/n其中,所述已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量,所述目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱;/n其中,所述文本映射关系包括映射文本和与所述映射文本对应的所述分类编码间的映射关系,所述映射文本包括所述疾病名称;所述语素包括与所述疾病名称关联的疾病信息的语素,所述疾病信息包括方位词、发病部位和/或症状名称;所述中间知识图谱包括记载有由历史文本、与所述历史文本对应的历史编码、与所述历史文本对应的所述文本编码映射关系中记载的所述疾病信息间的映射关系形成的三元组。/n

【技术特征摘要】
1.一种分类编码确定方法,其特征在于,包括:
获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量,根据所述已构建向量确定所述医学文本的文本向量;
将所述文本向量输入至已训练完成的第一编码分类模型,并根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码;
其中,所述已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量,所述目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱;
其中,所述文本映射关系包括映射文本和与所述映射文本对应的所述分类编码间的映射关系,所述映射文本包括所述疾病名称;所述语素包括与所述疾病名称关联的疾病信息的语素,所述疾病信息包括方位词、发病部位和/或症状名称;所述中间知识图谱包括记载有由历史文本、与所述历史文本对应的历史编码、与所述历史文本对应的所述文本编码映射关系中记载的所述疾病信息间的映射关系形成的三元组。


2.根据权利要求1所述的方法,其特征在于,所述根据所述已构建向量确定所述医学文本的文本向量,包括:
对所述医学文本进行语义切分,得到医学子文本;
根据所述已构建向量分别确定各所述医学子文本的文本子向量,并根据各所述文本子向量确定所述医学文本的文本向量。


3.根据权利要求1所述的方法,其特征在于,所述语素通过下述步骤预先得到:
对所述文本编码映射关系中的所述疾病名称和所述中间知识图谱中各节点上的节点文本进行语义切分,得到所述语素;
和/或,所述已构建向量通过如下步骤预先构建得到:
基于来自变换器的双向编码器表征模型对所述目标知识图谱中各节点上的节点文本进行处理,并经由图嵌入得到处理结果的所述已构建向量;
和/或,所述中间知识图谱通过如下步骤预先构建得到:
将历史文本作为起始节点,将所述文本编码映射关系中与所述历史文本相对应的疾病信息作为中间节点且历史编码作为终止节点;根据所述起始节点、所述中间节点和所述终止节点构建所述中间知识图谱。


4.根据权利要求1所述的方法,其特征在于,还包括:
基于所述医学文本在所述中间知识图谱上进行查询,得到图路径;
将所述图路径输入至已训练完成的第二编码分类模型中,并根据所述第二编码分类模型的输出结果确定所述医学文本的第二分类编码;
相应的,所述根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码,包括:
根据所述第一编码分类模型的输出结果确定所述医学文本的第一分类编码,并根据所述第一分类编码和所述第二分类编码确定所述医学文本的分类编码。


5.根据权利要求1所述的方法,其特征在于,还包括:
确定所述医学文本和所述文本编码映射关系中每个映射文本间的编辑距离,并根据各所述编辑距离确定所述医学文本的距离向量;
将所述距离向量输入至...

【专利技术属性】
技术研发人员:肖劲段翔张晓璐尹芳罗永贵苏丽
申请(专利权)人:联仁健康医疗大数据科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1