The embodiment of the present invention relates to the field of medical terminology library, in particular to a method and device for forming a medical terminology library to solve the problem of large scale translation of a medical terminology Library of a second language. In the embodiment of the present invention, the medical phrases of the first language are obtained from the medical records of the first language; for the same medical phrase, a number of medical phrases larger than the set threshold are selected from the medical phrases of multiple first languages as high-frequency medical phrases; and the high-frequency medical phrases are determined in the medical terminology Library of the second language. The corresponding concept of the second language; obtaining the topological information of the second language corresponding to the concept of the second language from the medical terminology database of the second language; translating the concept of the second language into the concept of the first language; translating the topological information of the second language into the topological information of the first language; according to the concepts of multiple first languages and more The topological information of first language is used to construct the first language medical terminology bank. Reduce the number of translations of second language medical phrases.
【技术实现步骤摘要】
一种医疗术语库的形成方法和装置
本专利技术实施例涉及医疗术语库领域,尤其涉及一种医疗术语库的形成方法和装置。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,相关研究的目的是实现人与计算机之间用自然语言进行有效通信。知识图谱是自然语言语义理解的基础,因此,知识图谱便应用而生。在医疗领域,存在大量的自由文本数据(例如电子病历、纸质病历、医学书籍),计算机是非常难处理和理解的。需要将自由文本数据转化为计算机可以处理的数据,目前,是由专业的医生经过长时间搭建了一个专业的医疗术语库(SystematizedNomenclatureofMedicine-ClinicalTerms,简称SNOMEDCT),以实现将医疗领域中的自由文本转化为计算机可以处理的数据。由于医疗术语库SNOMED是英文的,将SNOMED本地化对我国医疗信息的处理有着重大意义。现有技术中,将SNOMED本地化采用的方式是:利用软件翻译或者由人工翻译所述SNOMED。利用软件翻译的质量较差;利用人工翻译成本较大,因此亟需相应解决方案。
技术实现思路
本专利技术实施例提供一种医疗术语库的形成方法和装置,用以解决现有技术中对第二语言医疗术语库SNOMED的翻译规模大的问题。本专利技术实施例提供一种医疗术语库的形成方法,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的 ...
【技术保护点】
1.一种医疗术语库的形成方法,其特征在于,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。
【技术特征摘要】
1.一种医疗术语库的形成方法,其特征在于,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。2.如权利要求1所述的方法,其特征在于,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:将所述第二语言的概念的描述翻译为第一语言的概念的描述;所述根据多个第一语言的概念以及多个第一语言的第一拓扑信息,构建第一语言的医学术语库,包括:根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。3.如权利要求1所述的方法,其特征在于,所述根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库之前,还包括:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。4.如权利要求1至3任一项所述的方法,其特征在于,所述构建所述第一语言的医学术语库之后,还包括:将所述第一语言的医学术语库以图形数据库的方式进行存储。5.一种医疗术语库的形成装置,其特征在于,包括:获取单元,用于:从至少一个第一语言...
【专利技术属性】
技术研发人员:梁平,
申请(专利权)人:杭州依图医疗技术有限公司,杭州依图网络科技有限公司,广州依图医疗技术有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。