一种分类编码确定方法、装置、设备及存储介质制造方法及图纸

技术编号：27940260 阅读：30 留言：0更新日期：2021-04-02 14:21

本发明专利技术实施例公开了一种分类编码确定方法、装置、设备及存储介质。该方法包括：获取待确定分类编码的医学文本、及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量；将文本向量输入至已训练完成的第一编码分类模型，根据第一编码分类模型的输出结果确定医学文本的分类编码；其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。本发明专利技术实施例的技术方案，可以自动且准确地确定医学文本的分类编码。

全部详细技术资料下载

【技术实现步骤摘要】
一种分类编码确定方法、装置、设备及存储介质
本专利技术实施例涉及计算机应用
，尤其涉及一种分类编码确定方法、装置、设备及存储介质。
技术介绍
数据标准化是医疗信息化过程中的重要内容之一，但是，由于医学文本众多且写作人的不规范性，很难对未结构化甚至是结构化的医学文本进行分析、处理以及应用到下游任务中。以数据标准化中的国际疾病分类（InternationalClassificationofDiseases，ICD）编码的确定过程为例，目前主要是由经过专门培训的病案室人员或相关医务工作者在阅读医学文本之后确定其对应的ICD编码。显然，上述通过人工确定ICD编码的过程需要高强度的劳力，成本昂贵且容易出错。
技术实现思路
本专利技术实施例提供了一种分类编码确定方法、装置、设备及存储介质，以实现自动确定分类编码的效果。第一方面，本专利技术实施例提供了一种分类编码确定方法，可以包括：获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量；将文本向量输入至已训练完成的第一编码分类模型，并根据第一编码分类模型的输出结果确定医学文本的分类编码；其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱；其中，文本映射关系包括映射文本和与映射文本对应的分类编码间的映射关系，映射文本包括疾病名称；语素包括...

【技术保护点】
1.一种分类编码确定方法，其特征在于，包括：/n获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量，根据所述已构建向量确定所述医学文本的文本向量；/n将所述文本向量输入至已训练完成的第一编码分类模型，并根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码；/n其中，所述已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，所述目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱；/n其中，所述文本映射关系包括映射文本和与所述映射文本对应的所述分类编码间的映射关系，所述映射文本包括所述疾病名称；所述语素包括与所述疾病名称关联的疾病信息的语素，所述疾病信息包括方位词、发病部位和/或症状名称；所述中间知识图谱包括记载有由历史文本、与所述历史文本对应的历史编码、与所述历史文本对应的所述文本编码映射关系中记载的所述疾病信息间的映射关系形成的三元组。/n

【技术特征摘要】
1.一种分类编码确定方法，其特征在于，包括：
获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量，根据所述已构建向量确定所述医学文本的文本向量；
将所述文本向量输入至已训练完成的第一编码分类模型，并根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码；
其中，所述已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，所述目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱；
其中，所述文本映射关系包括映射文本和与所述映射文本对应的所述分类编码间的映射关系，所述映射文本包括所述疾病名称；所述语素包括与所述疾病名称关联的疾病信息的语素，所述疾病信息包括方位词、发病部位和/或症状名称；所述中间知识图谱包括记载有由历史文本、与所述历史文本对应的历史编码、与所述历史文本对应的所述文本编码映射关系中记载的所述疾病信息间的映射关系形成的三元组。

2.根据权利要求1所述的方法，其特征在于，所述根据所述已构建向量确定所述医学文本的文本向量，包括：
对所述医学文本进行语义切分，得到医学子文本；
根据所述已构建向量分别确定各所述医学子文本的文本子向量，并根据各所述文本子向量确定所述医学文本的文本向量。

3.根据权利要求1所述的方法，其特征在于，所述语素通过下述步骤预先得到：
对所述文本编码映射关系中的所述疾病名称和所述中间知识图谱中各节点上的节点文本进行语义切分，得到所述语素；
和/或，所述已构建向量通过如下步骤预先构建得到：
基于来自变换器的双向编码器表征模型对所述目标知识图谱中各节点上的节点文本进行处理，并经由图嵌入得到处理结果的所述已构建向量；
和/或，所述中间知识图谱通过如下步骤预先构建得到：
将历史文本作为起始节点，将所述文本编码映射关系中与所述历史文本相对应的疾病信息作为中间节点且历史编码作为终止节点；根据所述起始节点、所述中间节点和所述终止节点构建所述中间知识图谱。

4.根据权利要求1所述的方法，其特征在于，还包括：
基于所述医学文本在所述中间知识图谱上进行查询，得到图路径；
将所述图路径输入至已训练完成的第二编码分类模型中，并根据所述第二编码分类模型的输出结果确定所述医学文本的第二分类编码；
相应的，所述根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码，包括：
根据所述第一编码分类模型的输出结果确定所述医学文本的第一分类编码，并根据所述第一分类编码和所述第二分类编码确定所述医学文本的分类编码。

5.根据权利要求1所述的方法，其特征在于，还包括：
确定所述医学文本和所述文本编码映射关系中每个映射文本间的编辑距离，并根据各所述编辑距离确定所述医学文本的距离向量；
将所述距离向量输入至...

【专利技术属性】
技术研发人员：肖劲，段翔，张晓璐，尹芳，罗永贵，苏丽，
申请(专利权)人：联仁健康医疗大数据科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人