一种医疗术语库的形成方法和装置制造方法及图纸

技术编号:19341883 阅读:30 留言:0更新日期:2018-11-07 13:47
本发明专利技术实施例涉及医疗术语库领域,尤其涉及一种医疗术语库的形成方法和装置,用以解决对第二语言的医疗术语库翻译规模大的问题。本发明专利技术实施例中,从第一语言的医疗记录中获取第一语言的医学短语;针对同一个医学短语,从多个第一语言的医学短语中筛选出数量大于设定阈值的,作为高频的医学短语;确定高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从第二语言的医学术语库中获取第二语言的概念对应的第二语言的拓扑信息;将第二语言的概念翻译为第一语言的概念、将第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个第一语言的概念及多个第一语言的拓扑信息,构建第一语言的医学术语库。减小翻译第二语言的医学短语的数量。

Method and device for forming medical terminology bank

The embodiment of the present invention relates to the field of medical terminology library, in particular to a method and device for forming a medical terminology library to solve the problem of large scale translation of a medical terminology Library of a second language. In the embodiment of the present invention, the medical phrases of the first language are obtained from the medical records of the first language; for the same medical phrase, a number of medical phrases larger than the set threshold are selected from the medical phrases of multiple first languages as high-frequency medical phrases; and the high-frequency medical phrases are determined in the medical terminology Library of the second language. The corresponding concept of the second language; obtaining the topological information of the second language corresponding to the concept of the second language from the medical terminology database of the second language; translating the concept of the second language into the concept of the first language; translating the topological information of the second language into the topological information of the first language; according to the concepts of multiple first languages and more The topological information of first language is used to construct the first language medical terminology bank. Reduce the number of translations of second language medical phrases.

【技术实现步骤摘要】
一种医疗术语库的形成方法和装置
本专利技术实施例涉及医疗术语库领域,尤其涉及一种医疗术语库的形成方法和装置。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,相关研究的目的是实现人与计算机之间用自然语言进行有效通信。知识图谱是自然语言语义理解的基础,因此,知识图谱便应用而生。在医疗领域,存在大量的自由文本数据(例如电子病历、纸质病历、医学书籍),计算机是非常难处理和理解的。需要将自由文本数据转化为计算机可以处理的数据,目前,是由专业的医生经过长时间搭建了一个专业的医疗术语库(SystematizedNomenclatureofMedicine-ClinicalTerms,简称SNOMEDCT),以实现将医疗领域中的自由文本转化为计算机可以处理的数据。由于医疗术语库SNOMED是英文的,将SNOMED本地化对我国医疗信息的处理有着重大意义。现有技术中,将SNOMED本地化采用的方式是:利用软件翻译或者由人工翻译所述SNOMED。利用软件翻译的质量较差;利用人工翻译成本较大,因此亟需相应解决方案。
技术实现思路
本专利技术实施例提供一种医疗术语库的形成方法和装置,用以解决现有技术中对第二语言医疗术语库SNOMED的翻译规模大的问题。本专利技术实施例提供一种医疗术语库的形成方法,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。由于本专利技术实施例中,从所述多个第一语言的医学短语中筛选出高频的医学短语,高频的医学短语相比于获取到的全部第一语言的医学短语,数量较少;且高频的医学短语是通过医疗记录来获得的,比较符合临床实际使用情况,这样可以保证临床使用医学短语的覆盖率。之后将数量较少的高频的医学短语映射到第二语言的医学术语库中对应的第二语言的概念,可能会是多个高频的医学短语对应一个概念,因此,将第二语言的概念翻译为第一语言的概念的数量进一步减小,进而有助于进一步减小翻译的成本。将获取到的第二语言的概念对应的第二语言的拓扑信息翻译为第一语言的拓扑信息,根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。相比于现有技术将第二语言的医疗术语库全部翻译为第一语言的医疗术语库,本专利技术实施例可以在尽可能保证临床使用的医学短语的覆盖率的情况下,减小翻译第二语言的医学短语的数量,可降低构建第一语言的医学术语库的成本。可选地,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:将所述第二语言的概念的描述翻译为第一语言的概念的描述;所述根据多个第一语言的概念以及多个第一语言的第一拓扑信息,构建第一语言的医学术语库,包括:根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。为了提高第一语言医疗术语库医学短语的质量,所述根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库之前,还包括:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。可选地,所述构建所述第一语言的医学术语库之后,还包括:将所述第一语言的医学术语库以图形数据库的方式进行存储。图形数据库提供了对第一语言的医疗术语库进行遍历的能力和丰富的检索接口,因此将第一语言的医疗术语库存储于图形数据库中可以提高查询、遍历第一语言的医疗术语库的速度和效率。本专利技术实施例提供一种医疗术语库的形成装置,包括:获取单元,用于:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;处理单元,用于:针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;构建单元,用于:根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。可选地,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述处理单元,用于:将所述第二语言的概念的描述翻译为第一语言的概念的描述;根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;所述构建单元,用于:根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。可选地,所述处理单元,还用于:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。可选地,还包括存储单元,用于:将所述第一语言的医学术语库以图形数据库的方式进行存储。本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行所述的方法。本专利技术实施例提供一种计算机设备,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行所述的方法。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种医疗术语库的形成方法流程示意图;图2为本专利技术实施例提供的一种医疗术语库的形成装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是本文档来自技高网...

【技术保护点】
1.一种医疗术语库的形成方法,其特征在于,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。

【技术特征摘要】
1.一种医疗术语库的形成方法,其特征在于,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。2.如权利要求1所述的方法,其特征在于,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:将所述第二语言的概念的描述翻译为第一语言的概念的描述;所述根据多个第一语言的概念以及多个第一语言的第一拓扑信息,构建第一语言的医学术语库,包括:根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。3.如权利要求1所述的方法,其特征在于,所述根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库之前,还包括:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。4.如权利要求1至3任一项所述的方法,其特征在于,所述构建所述第一语言的医学术语库之后,还包括:将所述第一语言的医学术语库以图形数据库的方式进行存储。5.一种医疗术语库的形成装置,其特征在于,包括:获取单元,用于:从至少一个第一语言...

【专利技术属性】
技术研发人员:梁平
申请(专利权)人:杭州依图医疗技术有限公司杭州依图网络科技有限公司广州依图医疗技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1