用于对用中文表示的医学文本进行自然语言处理的方法和装置制造方法及图纸

技术编号:32262201 阅读:21 留言:0更新日期:2022-02-12 19:22
一种用于处理用中文表示的非结构化医学文本的方法,该方法包括:使用基于注意力的命名实体识别(NER)模型来识别用中文表示的非结构化医学文本中的医学实体;使用多维实体理解框架对所识别的医学实体进行结构化;使用医学知识图对结构化的医学实体进行归一化;以及输出归一化的医学实体。出归一化的医学实体。

【技术实现步骤摘要】
【国外来华专利技术】用于对用中文表示的医学文本进行自然语言处理的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求于2019年4月26日在美国专利商标局提交的第16/395,439号美国专利申请的优先权,该美国专利申请通过引用整体并入本文。


[0003]本公开涉及用于处理和理解用中文表示的医学相关内容的自然语言处理(NLP)框架。

技术介绍

[0004]近年来,电子健康记录(EHR)系统和电子医疗记录(EMR)系统越来越多地在世界各地的医院中采用。EHR系统可收集大范围的医疗数据,包括结构化数据和非结构化数据、文本和图像。更具体地,大部分基于文本的临床数据仍然以非结构化自然语言的形式收集和存储。虽然在结构化和形式化医学内容方面已做出巨大努力,但是仅少量医学内容,例如实验室测试结果、药品订单,以结构化形式存储。相反,许多重要的医学相关文本内容,例如医生和护士的注释、报告、治疗计划、出院小结和书籍,仍然使用“自由文本”作为它们的表示。这些非结构化数据和半结构化数据难以用于开发现代医学人工智能系统,例如临床决策支持系统。
[0005]此外,理解用中文表示的医学文本可能比理解用英文表示的医学文本更加困难。例如,不存在处理和理解用中文表示的医学内容的既定标准或指南。其次,虽然存在一些用英文表示的现有医学文本处理框架,例如统一医学语言系统(UMLS)和国际疾病与相关健康问题统计分类第十版(ICD

10),但是这些框架不能直接转成中文,原因是许多语言元素明显不同。

技术实现思路
/>[0006]在一个实施例中,提供一种用于处理用中文表示的非结构化医学文本的方法,该方法包括:使用基于注意力的命名实体识别(NER)模型来识别用中文表示的非结构化医学文本中的一个或多个医学实体;使用多维实体理解框架对所识别的医学实体进行结构化;使用医学知识图对结构化的医学实体进行归一化;以及输出归一化的医学实体。
[0007]在一个实施例中,提供一种设备,该设备包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作,程序代码包括:识别代码,配置成使得至少一个处理器使用基于注意力的命名实体识别(NER)模型来识别用中文表示的非结构化医学文本中的一个或多个医学实体;结构化代码,配置成使得至少一个处理器使用多维实体理解框架对所识别的医学实体进行结构化;归一化代码,配置成使得至少一个处理器使用医学知识图对结构化的医学实体进行归一化;以及输出代码,配置成使得至少一个处理器输出归一化的医学实体。
[0008]在一个实施例中,提供一种非暂时性计算机可读介质,非暂时性计算机可读介质存储指令,该指令包括一个或多个指令,一个或多个指令在由设备的一个或多个处理器运行时,使得一个或多个处理器:使用基于注意力的命名实体识别(NER)模型来识别用中文表示的非结构化医学文本中的一个或多个医学实体;使用多维实体理解框架对所识别的医学实体进行结构化;使用医学知识图对结构化的医学实体进行归一化;以及输出归一化的医学实体。
附图说明
[0009]图1是根据实施例的自然语言处理框架的示例的图;
[0010]图2是可实现本文描述的系统和/或方法的示例环境的图;
[0011]图3是图2的一个或多个设备的示例组件的图;
[0012]图4是根据实施例的命名实体识别模型的示例的图;
[0013]图5是根据实施例的多维实体理解框架的示例的图;
[0014]图6是根据实施例的用于实现自然语言处理框架的示例过程的流程图。
具体实施方式
[0015]在医学领域中,大量文档基于并使用自由或非结构化文本作为它们的表示。然而,在医学领域中应用人工智能技术可能需要处理、结构化和理解医学相关实体。本公开的实施例涉及用于理解用中文表示的医学内容例如医学文本数据104的自然语言处理(NLP)框架100。NLP框架100可包括基于注意力的深度命名实体识别(NER)模型101,模型101与中文医学词典一起用于识别非结构化医学文本数据104中的医学相关实体及其类别。多维实体理解框架102可用于通过确定用于描述对应的核心医学实体的一系列属性来对自由文本内容进行结构化。此外,医学知识图103可用于执行医学实体归一化,以输出归一化实体105。因此,NLP框架100可提供用于处理用中文表示的非结构化医学文本内容和半结构化医学文本内容的可行方式。
[0016]图2是可实现本文描述的系统和/或方法的示例环境200的图。如图2所示,环境200可包括用户设备210、平台220和网络230。环境200的设备可通过有线连接、无线连接或者有线连接和无线连接的组合来互连。
[0017]用户设备210包括能够接收、生成、存储、处理和/或提供与平台220相关联的信息的一个或多个设备。例如,用户设备210可包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,一对智能眼镜或智能手表)或类似设备。在一些实现方式中,用户设备210可从平台220接收信息和/或向平台220发送信息。
[0018]平台220包括能够实现NLP框架100的一个或多个设备,如在本文的其他地方所描述的。在一些实现方式中,平台220可包括云服务器或一组云服务器。在一些实现方式中,平台220可设计成模块化平台,使得某些软件组件可根据特定需要而换入或换出。因此,平台220可容易地和/或快速地针对不同用途来重新配置。
[0019]在一些实现方式中,如图所示,平台220可托管在云计算环境222中。应注意,虽然本文描述的实现方式将平台220描述成托管在云计算环境222中,但是在一些实现方式中,
平台220不基于云(即,可以在云计算环境之外实现)或者可部分地基于云。
[0020]云计算环境222包括托管平台220的环境。云计算环境222可提供不需要终端用户(例如,用户设备210)知道托管平台220的系统和/或设备的物理位置和配置的计算、软件、数据访问、存储等服务。如图所示,云计算环境222可包括一组计算资源224(这一组计算资源统称为“计算资源224”,单独一个计算资源称为“计算资源224”)。
[0021]计算资源224包括一个或多个个人计算机、工作站计算机、服务器设备或其他类型的计算和/或通信设备。在一些实现方式中,计算资源224可控制平台220。云资源可包括在计算资源224中运行的计算实例、在计算资源224中提供的存储设备、由计算资源224提供的数据传输设备等。在一些实现方式中,计算资源224可通过有线连接、无线连接或者有线连接和无线连接的组合与其他计算资源224通信。
[0022]进一步如图2所示,计算资源224包括一组云资源,例如一个或多个应用(“APP”)224

1、一个或多个虚拟机(“VM”)224

2、虚拟化存储器(“VS”)22本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理用中文表示的非结构化医学文本的方法,所述方法包括:使用基于注意力的命名实体识别NER模型来识别所述用中文表示的非结构化医学文本中的医学实体;使用多维实体理解框架对所识别的医学实体进行结构化;使用医学知识图对结构化的医学实体进行归一化;输出归一化的医学实体。2.根据权利要求1所述的方法,其中,所述用中文表示的非结构化医学文本包括医生注释、护士注释、报告、治疗计划、出院小结或书籍中的至少一个。3.根据权利要求1所述的方法,其中,所述医学实体包括疾病、症状或医疗过程中的至少一个。4.根据权利要求1所述的方法,其中,所述基于注意力的NER模型与长短期记忆条件随机场LSTM

CRF模型一起使用,来识别所述医学实体。5.根据权利要求1所述的方法,其中,所述医学实体的每个词由词级信息和字符级信息表示。6.根据权利要求5所述的方法,其中,所述识别进一步包括:使用注意力值作为加权和,将词级嵌入与字符级嵌入级联。7.根据权利要求6所述的方法,其中,所述加权和被发送到词级长短期记忆LSTM,且共享加权矩阵用于将每个词投影到一个或多个预定义标签中。8.根据权利要求1所述的方法,其中,所述多维实体理解框架包括多个分析器。9.根据权利要求8所述的方法,其中,所述多个分析器包括如下至少之一:肯定/否定实体分析器、强度分析器、因果分析器、状况前分析器、改变模式分析器、状况后分析器、时间分析器、频率分析器和身体部位分析器。10.根据权利要求1所述的方法,其中,所述医学知识图用于识别与所述医学实体同义的一个或多个同义医学实体。11.一种用于处理用中文表示的非结构化医学文本的设备,所述设备包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指令进行操作,所述程序代码包括:识别代码,配置成使得所述至少一个处理器使用基于注意力的命名实体识别NER模型来识别所述用中文表示的非结构化医学文本中的医学实体;结构化代码,配置成使得所述至...

【专利技术属性】
技术研发人员:杨涛涂旻李亚亮谢于晟张尚卿王堃杜楠范伟
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1