命名实体归一化处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27131047 阅读:24 留言:0更新日期:2021-01-25 20:04
本申请提供一种命名实体归一化处理方法、装置、电子设备及存储介质,其中,命名实体归一化处理方法,包括:从文本数据中识别得到命名实体;按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体;若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。本申请既能够确保检测精准度、又具有较高的实施效率和较低的实施成本。有较高的实施效率和较低的实施成本。有较高的实施效率和较低的实施成本。

【技术实现步骤摘要】
命名实体归一化处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种命名实体归一化处理方法、装置、电子设备及存储介质。

技术介绍

[0002]命名实体(named entity)是指以人名、机构名、地名以及其他名称为标识的实体。在医学领域,医学命名实体是指称医学领域里的各种事物、现象、特性、关系和过程等,例如疾病、疾病诊断、临床症状、检查和治疗等。
[0003]医学命名实体归一化是信息提取的基本任务之一,旨在将文本中的自然语言描述实体映射到给定医学标准库中的标准实体名称,是医疗知识挖掘、医疗智能机器人、医疗临床决策支持系统等应用领域的重要基础工作。准确的医学命名实体归一化方法,便于挖掘非结构化的医学文本的价值,并为接下来医学命名实体的实际应用打好基础工作。
[0004]现有技术中,医学命名实体的归一化方法可大致分为两类,一类是利用规则模式实现,以模式和字符串相匹配为主要手段,将电子病历中的文本匹配至标准命名实体,该方法依赖于知识库和词典的建立;另一类是利用聚类和深度神经网络模型实现,该方法依赖于大量的训练数据来训练神经网络模型。上述两种方法,若要达到较高的精准度,都需要人工做大量的数据准备工作,从而导致实施效率的降低和成本的升高,而若提高实施效率和降低成本,则会带来精准度的损失。
[0005]因此,需要提供一种既能够确保检测精准度、又具有较高的实施效率和较低的实施成本的命名实体归一化方案。

技术实现思路

[0006]本申请实施例的目的是提供一种命名实体归一化处理方法、装置、电子设备及存储介质,以解决当前命名实体归一化处理方式精准度、效率和成本三者不能兼顾的问题。
[0007]为解决上述技术问题,本申请实施例提供如下技术方案:
[0008]本申请第一方面提供一种命名实体归一化处理方法,包括:
[0009]从文本数据中识别得到命名实体;
[0010]按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;
[0011]若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;
[0012]若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。
[0013]本申请第二方面提供一种命名实体归一化处理装置,包括:
[0014]命名实体识别模块,用于从文本数据中识别得到命名实体;
[0015]文本匹配模块,用于按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;
[0016]第一标准命名模块,用于若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;
[0017]相似度匹配模块,用于若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。
[0018]本申请第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法
[0019]本申请第四方面提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。
[0020]本申请第一方面提供的一种命名实体归一化处理方法,首先从文本数据中识别得到命名实体;然后按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。本申请上述方法,并不拘泥于规则模式或者神经网络的单一的实施方式,而是将二者有机地进行了结合,首先利用相对简单的文本匹配规则进行初步匹配,文本匹配失败后再利用词向量相似度匹配算法进行匹配,这样可以有效降低文本匹配规则的数据准备量,降低实施成本,由于通过文本匹配能够快速地对部分命名实体进行归一化表示,因此还可以提高整体的实施效率,对于文本匹配失败的命名实体再利用词向量相似度匹配算法进行匹配以确保精准度,从而能够兼顾精准度、效率和成本三者之间的平衡,既能够确保检测精准度、又具有较高的实施效率和较低的实施成本。
[0021]本申请第二方面提供的一种命名实体归一化处理装置、第三方面提供的一种电子设备以及第四方面提供的一种计算机可读存储介质,与本申请第一方面提供的命名实体归一化处理方法出于相同的专利技术构思,与其具有相同的有益效果。
附图说明
[0022]通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,相同或对应的标号表示相同或对应的部分,其中:
[0023]图1示意性地示出了本申请的一些实施方式所提供的一种命名实体归一化处理方法的流程图;
[0024]图2示意性地示出了本申请的一些实施方式所提供的一种命名实体归一化处理装
置的示意图;
[0025]图3示意性地示出了本申请的一些实施方式所提供的一种电子设备的示意图;
[0026]图4示意性地示出了本申请的一些实施方式所提供的一种计算机可读存储介质的示意图。
具体实施方式
[0027]下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0028]需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
[0029]在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
[0030]应当理解,本文中使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体归一化处理方法,其特征在于,包括:从文本数据中识别得到命名实体;按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,其中,所述扩展命名实体是对所述命名实体的至少一部分用词进行同义词替换得到的;若查找到所述第一标准命名实体,则将所述第一标准命名实体确定为所述命名实体的归一化表示;若未查找到所述第一标准命名实体,则基于词向量相似度匹配算法,从所述预设的标准命名实体数据库中确定与所述命名实体匹配的第二标准命名实体,并将所述第二标准命名实体确定为所述命名实体的归一化表示。2.根据权利要求1所述的方法,其特征在于,所述从文本数据中识别得到命名实体,包括:对文本数据进行数据清洗,得到清洗后的文本数据,其中,所述数据清洗包括删除停用词和/或指定符号;基于所述清洗后的文本数据进行命名实体识别,得到命名实体。3.根据权利要求2所述的方法,其特征在于,所述基于所述清洗后的文本数据进行命名实体识别,得到命名实体,包括:针对所述清洗后的文本数据中的长文本和/或短文本,采用针对长文本的第一命名实体识别算法和/或针对短文本的第二命名实体识别算法,识别得到命名实体。4.根据权利要求3所述的方法,其特征在于,所述第一命名实体识别算法包括基于双向长短期记忆网络BiLSTM和条件随机场CRF的命名实体识别算法,和/或,所述第二命名实体识别算法包括基于正则表达式的命名实体识别算法。5.根据权利要求1所述的方法,其特征在于,所述按照预设的文本匹配规则,从标准命名实体数据库中查找与所述命名实体或扩展命名实体匹配的第一标准命名实体,包括:从标准命名实体数据库中查找与所述命名实体字符串完全匹配的第一标准命名实体;若未查找到与所述命名实体字符串完全匹配的第一标准命名实体,则从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体。6.根据权利要求5所述的方法,其特征在于,所述从所述标准命名实体数据库中查找与扩展命名实体字符串完全匹配的第一标准命名实体,包括:对所述命名实体进行完全同义词替换,得到完全替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体;若未查询到与所述完全替换的扩展命名实体字符串完全匹配的第一标准命名实体,则对所述命名实体进行部分同义词替换,得到部分替换的扩展命名实体,并从所述标准命名实体数据库中查找与所述部分替换的扩展命名实体字符串完全匹配的第一标准命名实体。7.根据权利要求6所述...

【专利技术属性】
技术研发人员:魏小红颜永阳王川刘楠雷一鸣王洪
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利