当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于通用模型的医学标准术语管理系统及方法技术方案

技术编号:34985043 阅读:60 留言:0更新日期:2022-09-21 14:29
本发明专利技术公开了一种基于通用模型的医学标准术语管理系统及方法,包括术语信息处理模块,术语关系网络构建模块,术语库自扩增模块,可视化管理模块;步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容;步骤S2:建立标准化映射关系,完成术语关系网络的搭建;步骤S3:进行自增推荐,完成术语关系网络的扩展;步骤S4:利用可视化管理模块对所述术语库进行可视化管理。本发明专利技术所构建的医学标准术语库可满足不同的科研及业务使用场景,兼容或可溯源至不同平台及权威机构的医学标准术语,所设计的结构体可支持术语的各种组合扩展。支持术语的各种组合扩展。支持术语的各种组合扩展。

【技术实现步骤摘要】
一种基于通用模型的医学标准术语管理系统及方法


[0001]本专利技术涉及一种医学领域
,尤其涉及一种基于通用模型的医学标准术语管理系统及方法。

技术介绍

[0002]随着大数据时代的来临,医疗大数据在医学领域的应用价值也逐渐被挖掘与利用。然而,在这一过程中,由于多源的医学数据不具备统一的标准,在过去缺乏规范性的约束,致使各行业对现有的医疗数据无法进行最大化的合理利用,也成为医学信息化建设及医学研究发展的阻碍因素。
[0003]虽然当前,各大国内外权威机构发布的医学标准术语集已在不同的领域被广泛应用及认可,却仍缺乏一个,可兼容多种需求场景,能突破不同服务平台间壁垒的中文标准医学术语体系。致使现阶段,中文标准术语在真实世界的覆盖度仅低于40%,远不足以适应医疗人工智能的应用需求。
[0004]已有的中文医学术语管理方法中,一种是基于snowflake算法对同义医学术语进行标识,以概念为中心进行整合后,构建单分类下的树状数据结构医学词典;一种是对英文医学术语资源,如SNOMEDCT,进行机器翻译及大量人工校正。
[0005]第一种方式将不同来源获取的医学术语进行分类,得到不同含义的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,根据不同的概念标识进行整合得到医学概念表,同时采用Jaccard相似度算法对相同来源的医学术语进行相似度计算以满足准确分类。通过这种方法实现自增ID,保证ID的唯一性和索引性能。其构建的术语体系结构单一,可拓展性低,没有足够的泛化能力和灵活性来面对多样的数据来源和不断更新的应用场景需求。对于术语内部及术语间的关联信息未进行有效利用,致使在术语集的后续维护及拓展上依然需要堆砌大量的人工成本。以新增一例标准术语概念为例,传统的技术方案仅能通过判断原始术语表中是否存在同义概念,来进行概念分类或新增。当新增的概念与原始术语表中的术语存在层级关系,无法自动将新概念添加在有效的节点位置下;当新增概念与现有概念存在信息关联,也无法对其进行识别,从而存储关联信息;当前技术无法有效利用术语本身已有信息进行同类术语聚合,需要依靠纯人工的方式进行管理及维护,无法有效形成一个标准化的术语管理体系和迭代闭环。
[0006]第二种方式,若仅通过机器翻译,在不基于大量人工校正的条件下,无法避免翻译结果与专业概念的较大偏差,也容易忽略国内外语言使用习惯的差异,在术语映射时往往得到的是极低的召回率。如需要提高召回率,则在管理和维护上需要付出成倍的人力和资金成本,以及漫长的时间周期。
[0007]目前,构建的术语体系结构单一,可拓展性低,没有足够的泛化能力面对多样的数据来源和业务需求,没有足够的灵活性对术语库进行可持续且高效率的管理及优化。主要表现在于:(1)不对来源信息进行保留,不建立,不存储标准术语与非标准术语的映射关系。
(2)没有合理利用术语内部及术语间的关联关系,面对标准术语概念的新增,仅能通过判断原始术语表中是否存在同义概念,来进行概念分类或新增,若需新增的概念与原始术语表中的术语存在层级关系,无法自动将新概念添加在有效的节点位置下,若需新增的概念需满足特定的应用需求,位于相对高的层级,无法有效利用其中的关联信息进行其子类的同类术语的聚合;(3)术语库后续的迭代需要堆砌大量的人工进行,未能形成一个高效标准化的术语管理体系和迭代闭环。
[0008]以实际需求场景举例,当术语库须要满足DRG或DIP系统的业务需求,则须确保术语可映射或溯源至相关标准数据库,如ICD

10医保版,ICD
‑9‑
CM

3医保版;以一个标准概念举例,当临床所见概念“下肢疼痛“未在当前建立的标准术语库中且需新增时,需要将其自动化添加在“四肢疼痛“以及“下肢临床所见“节点下,作为以上两个术语概念的子节点;同时需要将原来在“四肢疼痛”节点下的:“小腿疼痛”,“足部疼痛”,“左下肢疼痛”统一修改为“下肢疼痛”的子节点;以及,需要自动关联身体部位信息“下肢”为发生部位。现有的技术显然还无法完成上述的自动化术语管理流程。
[0009]为此,我们提出一种基于通用模型的医学标准术语管理系统及方法以解决上述技术问题。

技术实现思路

[0010]本专利技术为了解决上述技术问题,提供一种基于通用模型的医学标准术语管理系统及方法。
[0011]本专利技术采用的技术方案如下:一种基于通用模型的医学标准术语管理系统,包括:术语信息处理模块,用于对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型对病历文本进行拆分得到病历文本细分属性名称对应的细分属性内容,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;术语关系网络构建模块,用于在所述细分属性内容中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;术语库自扩增模块,用于对不同的所述术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;可视化管理模块,用于对所述术语库进行可视化管理。
[0012]进一步地,所述可视化管理模块包括:医学标准术语查询单元,用于提供用户预览数据,进行标准术语的可视化查询,基于不同维度的筛选条件,筛选出对应的术语,同时提供用户登陆界面入口和术语管理界面入口,展示包含以下维度的标准术语信息,包括:标准术语的顶级类别、同义词、父节点术语、子节点术语和/或属性信息,同时提供进入相关术语详情界面的入口;术语编辑单元,用于提供用户通过可视化界面进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;术语审核单元,用于提供术语审核人员进行第二方审核,提供审核人员进行术语
审核结果判定;术语映射单元,用于提供用户对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
[0013]本专利技术还提供一种基于通用模型的医学标准术语管理方法,包括以下步骤:步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容,所述细分属性内容即为标准词,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;步骤S2:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;步骤S3:通过术语库自扩增模块对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;步骤S4:利用可视化管理模块对所述术语库进行可视化管理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于通用模型的医学标准术语管理系统,其特征在于,包括:术语信息处理模块,用于对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型对病历文本进行拆分得到病历文本细分属性名称对应的细分属性内容,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;术语关系网络构建模块,用于在所述细分属性内容中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;术语库自扩增模块,用于对不同的所述术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;可视化管理模块,用于对所述术语库进行可视化管理。2.如权利要求1所述的一种基于通用模型的医学标准术语管理系统,其特征在于,所述可视化管理模块包括:医学标准术语查询单元,用于提供用户预览数据,进行标准术语的可视化查询,基于不同维度的筛选条件,筛选出对应的术语,同时提供用户登陆界面入口和术语管理界面入口,展示包含以下维度的标准术语信息,包括:标准术语的顶级类别、同义词、父节点术语、子节点术语和/或属性信息,同时提供进入相关术语详情界面的入口;术语编辑单元,用于提供用户通过可视化界面进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;术语审核单元,用于提供术语审核人员进行第二方审核,提供审核人员进行术语审核结果判定;术语映射单元,用于提供用户对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。3.一种基于通用模型的医学标准术语管理方法,其特征在于,包括以下步骤:步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容,所述细分属性内容即为标准词,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;步骤S2:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;步骤S3:通过术语库自扩增模块对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;步骤S4:利用可视化管理模块对所述术语库进行可视化管理,所述可视化管理包括医学标准术语查询单元、术语编辑单元、术语审核单元和术语映射单元。4.如权利要求3所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S1具体包括以下子步骤:步骤S11:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准
术语数据的定义及术语含义进行术语分类,保留原始术语的层级关系、关联关系和/或编码信息,并打上来源标签,得到术语类别以及术语类别对应的细分属性名称;步骤S12:利用预训练语言模型构建序列标注模型,并通过所述序列标注模型将开源标准术语数据拆分得到细分属性内容。5.如权利要求4所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S12具体包括以下子步骤:步骤S121:利用预训练语言模型计算开源标准术语数据中每个字/词的向量表示;步骤S122:所述向量表示通过自注意力机制计算每个字/词的输出状态;步骤S123:所述输出状态经过全连接神经网络计算得到每个字/词属于每种细分属性类别的概率,完成序列标注模型的构建...

【专利技术属性】
技术研发人员:李劲松俞紫怡杨宗峰田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1