文本处理方法、设备、介质和程序产品技术

技术编号:36580398 阅读:21 留言:0更新日期:2023-02-04 17:40
本公开的实施例涉及文本处理方法、设备、介质和程序产品。一种文本处理方法包括:获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本,标准文本库包括知识领域中使用的多个标准文本;通过修改标准文本库中的第二标准文本来生成第二训练文本,第二训练文本被标记为与第二标准文本匹配;以及利用第一和第二训练文本以及第一和第二标准文本,根据训练目标来训练被配置为生成文本的特征表示的模型,训练目标至少被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。以此方式,得到的模型使得文本的标准化处理更准确。的标准化处理更准确。的标准化处理更准确。

【技术实现步骤摘要】
文本处理方法、设备、介质和程序产品


[0001]本公开的实施例总体上涉及计算机领域,并且更具体地,涉及文本处理方法、电子设备、计算机可读存储介质和程序产品。

技术介绍

[0002]临床医学术语是医疗数据的重要组成部分,术语标准化技术对于临床研究和临床信息管理系统而言非常重要。然而,不同的医务人员或同一医务人员在不同的场合、时间对同一医学术语的表述可能不同,因此,需要将从电子病历(例如诊断报告)中提取的文本转换为标准术语库(例如,国际疾病分类编码ICD

10)中的标准文本。然而,人工标注的方式通常需要耗费大量人力成本和时间成本,同时,还可能存在医学专业人员的专业知识不足或误操作导致的医学术语标准化错误的情况。
[0003]已有的术语标准化技术通常通过测量基于字符串的距离或基于向量的距离来评估文本的相似性。然而,这种技术的准确度较低。因此,期望提供一种能够使文本的标准化处理更准确的方法。

技术实现思路

[0004]根据本公开的实施例,提供一种用于文本处理的方案,以用于通过使用混合训练方法,来提高文本的标准化处理的准确度。
[0005]在本公开的第一方面,提供了一种文本处理方法。该方法包括:获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本,标准文本库包括知识领域中使用的多个标准文本;通过修改标准文本库中的第二标准文本来生成第二训练文本,第二训练文本被标记为与第二标准文本匹配;以及利用第一训练文本、第二训练文本、第一标准文本和第二标准文本,并且根据训练目标来训练被配置为生成文本的特征表示的模型,训练目标至少被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。
[0006]根据一些可选实施例,修改标准文本库中的第二标准文本来生成第二训练文本包括通过按以下至少一项来修改第二标准文本:删除第二标准文本中的至少一个字符、词或词组;使用具有相同或相似发音的字符来替换第二标准文本中的至少一个字符;使用具有相同词根的词来替换第二标准文本中的词;以及改变第二标准文本中的字符、词或词组的顺序。
[0007]根据一些可选实施例,该方法还包括:通过修改第一训练文本来生成第三训练文本,第三训练文本被标记为与第一标准文本匹配;以及还利用第三训练文本和第一标准文本,并且根据训练目标来训练模型,训练目标还被确定为使模型针对第三训练文本生成的第三特征表示能够被重构为第一标准文本。
[0008]根据一些可选实施例,该方法还包括:对第一训练文本、第一标准文本和第二标准
文本执行预处理,以格式化第一训练文本、第一标准文本和第二标准文本,其中第二训练文本基于经预处理的第二标准文本来生成。
[0009]根据一些可选实施例,训练模型包括:针对第一训练文本和第二训练文本中的每个训练文本,确定训练文本对应的向量化表示;通过将向量化表示应用到模型,来生成训练文本对应的训练特征表示;从训练特征表示生成训练文本对应的重构文本;以及通过使重构文本与训练文本匹配的标准文本之间的差异降低来更新模型的参数集,以满足训练目标。
[0010]根据一些可选实施例,确定训练文本对应的向量化表示包括:提取训练文本在多个维度上的多个单维度向量化表示;以及通过合并多个单维度向量化表示来确定向量化表示。
[0011]根据一些可选实施例,提取多个单维度向量化表示包括提取以下多个单维度向量化表示中的至少一项:在语义维度上提取训练文本对应的语义向量化表示;在文本维度上提取训练文本包括的多个文本单元对应的多个单元向量化表示,多个文本单元包括字符、词和词组中的至少一项;以及在发音维度上提取训练文本的全部或部分发音对应的发音向量化表示。
[0012]在本公开的第二方面,提供了一种文本处理方法。该方法包括:利用根据第一方面的方法训练的模型,确定目标文本对应的目标特征表示;获得标准文本库中的多个标准文本对应的多个标准特征表示;确定目标特征表示与多个标准特征表示之间的多个表示相似度得分;以及至少基于多个表示相似度得分,确定多个标准文本中与目标文本匹配的标准文本。
[0013]根据一些可选实施例,至少基于多个表示相似度得分确定与目标文本匹配的标准文本包括:基于多个表示相似度得分,从多个标准文本选择针对目标文本的多个候选标准文本;确定目标文本与多个候选标准文本之间的多个文本相似度得分;基于多个表示相似度得分和多个文本相似度得分,确定目标文本与多个候选标准文本之间的多个置信度得分;以及基于多个置信度得分,从多个候选标准文本中选择与目标文本匹配的标准文本。
[0014]根据一些可选实施例,多个标准特征表示由模型确定。
[0015]在本公开的第三方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令,指令在由处理单元执行时使设备执行以下动作:获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本,标准文本库包括知识领域中使用的多个标准文本;通过修改标准文本库中的第二标准文本来生成第二训练文本,第二训练文本被标记为与第二标准文本匹配;以及利用第一训练文本、第二训练文本、第一标准文本和第二标准文本,并且根据训练目标来训练被配置为生成文本的特征表示的模型,训练目标至少被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本,并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。
[0016]根据一些可选实施例,该设备可以实现第一方面的方法的各种实施例。
[0017]在本公开的第四方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令,指令在由处理单元执行时使设备执行以下动作:利用根据第一方面的方法训练的模型,确定目标文本对应的目标特征表示;获得标准文
本库中的多个标准文本对应的多个标准特征表示;确定目标特征表示与多个标准特征表示之间的多个表示相似度得分;以及至少基于多个表示相似度得分,确定多个标准文本中与目标文本匹配的标准文本。
[0018]根据一些可选实施例,该设备可以实现第二方面的方法的各种实施例。
[0019]在本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现根据第一方面的方法或者根据第二方面的方法的各种实施例。
[0020]在本公开的第六方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现根据第一方面的方法或者根据第二方面的方法的各种实施例。
[0021]根据本公开的各种实施例,通过使用混合训练方法,使得模型能够更好地学习文本的特征表示,由此提高文本标准化处理的准确度。
附图说明
[0022]通过参考附图阅读下文的详细描述,本公开的上述以及其他目的、结构和特征将更加清楚。在附图中,以示例性而非限制性的方式示出了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获得第一训练文本以及在标准文本库中被标记为与所述第一训练文本匹配的第一标准文本,所述标准文本库包括知识领域中使用的多个标准文本;通过修改所述标准文本库中的第二标准文本来生成第二训练文本,所述第二训练文本被标记为与所述第二标准文本匹配;以及利用所述第一训练文本、所述第二训练文本、所述第一标准文本和所述第二标准文本,并且根据训练目标来训练被配置为生成文本的特征表示的模型,所述训练目标至少被确定为使所述模型针对所述第一训练文本生成的第一特征表示能够被重构为所述第一标准文本,并且使所述模型针对所述第二训练文本生成的第二特征表示能够被重构为所述第二标准文本。2.根据权利要求1所述的方法,其中修改所述标准文本库中的所述第二标准文本来生成第二训练文本包括通过按以下至少一项来修改所述第二标准文本:删除所述第二标准文本中的至少一个字符、词或词组;使用具有相同或相似发音的字符来替换所述第二标准文本中的至少一个字符;使用具有相同词根的词来替换所述第二标准文本中的词;以及改变所述第二标准文本中的字符、词或词组的顺序。3.根据权利要求1所述的方法,还包括:通过修改所述第一训练文本来生成第三训练文本,所述第三训练文本被标记为与所述第一标准文本匹配;以及还利用所述第三训练文本和所述第一标准文本,并且根据所述训练目标来训练所述模型,所述训练目标还被确定为使所述模型针对所述第三训练文本生成的第三特征表示能够被重构为所述第一标准文本。4.根据权利要求1所述的方法,还包括:对所述第一训练文本、所述第一标准文本和所述第二标准文本执行预处理,以格式化所述第一训练文本、所述第一标准文本和所述第二标准文本,其中所述第二训练文本基于经预处理的所述第二标准文本来生成。5.根据权利要求1所述的方法,其中训练所述模型包括:针对所述第一训练文本和所述第二训练文本中的每个训练文本,确定所述训练文本对应的向量化表示;通过将所述向量化表示应用到所述模型,来生成所述训练文本对应的训练特征表示;从所述训练特征表示生成所述训练文本对应的重构文本;以及通过使所述重构文本与所述训练文本匹配的标准文本之间的差异降低来更新所述模型的参数集,以满足所述训练目标。6.根据权利要求5所述的方法,其中确定所述训练文本对应的所述向量化表示包括:提取所述训练文本在多个维度上的多个单维度向量化表示;以及通过合并所述多个单维度向量化表示来确定所述向量化表示。7.根据权利要求6所述的方法,其中提取所述多个单维度向量化表示包括提取以下多个单维度向量化表示中的至少一项:在语义维度上提取所述训练文本对应的语义向量化表示;
在文本维度上提取所述训练文本包括的多个文本单元对应的多个单元向量化表示,所述多个文本单元包括字符、词和词组中的至少一项;以及在发音维度上提取所述训练文本的全部或部分发音对应的发音向量化表示。8.一种文本处理方法,包括:利用根据权利要求1至7中任一项所述的方法训练的模型,确定目标文本对应的目标特征表示;获得所述标准文本库中的多个标准文本对应的多个标准特征表示;确定所述目标特征表示与所述多个标准特征表示之间的多个表示相似度得分;以及至少基于所述多个表示相似度得分,确定所述多个标准文本中与所述目标文本匹配的标准文本。9.根据权利要求8所述的方法,其中至少基于所述多个表示相似度得分确定与所述目标文本匹配的标准文本包括:基于所述多个表示相似度得分,从所述多个标准文本选择针对所述目标文本的多个候选标准文本;确定所述目标文本与所述多个候选标准文本之间的多个文本相似度得分;基于所述多个表示相似度得分和所述多个文本相似度得分,确定所述目标文本与所述多个候选标准文本之间的多个置信度得分;以及基于所述多个置信度得分,从所述多个候选标准文本中选择与所述目标文本匹配的所述标准文本。10.根据权利要求8所述的方法,其中所述多个标准特征表示由所述模型确定。11.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:获得第一训练文本以及在标准文本库中被标记为与所述第一训练文本匹配的第一标准文本,所述标准文本库包括知识领域中使用的多个标准文本;通过修改所述标准文本库中的第二标准文本来生成第...

【专利技术属性】
技术研发人员:许梦竹田聪袁亚娜
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1