文本处理方法、设备、介质和程序产品技术

技术编号：36580398 阅读：21 留言：0更新日期：2023-02-04 17:40

本公开的实施例涉及文本处理方法、设备、介质和程序产品。一种文本处理方法包括：获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本，标准文本库包括知识领域中使用的多个标准文本；通过修改标准文本库中的第二标准文本来生成第二训练文本，第二训练文本被标记为与第二标准文本匹配；以及利用第一和第二训练文本以及第一和第二标准文本，根据训练目标来训练被配置为生成文本的特征表示的模型，训练目标至少被确定为使模型针对第一训练文本生成的第一特征表示能够被重构为第一标准文本，并且使模型针对第二训练文本生成的第二特征表示能够被重构为第二标准文本。以此方式，得到的模型使得文本的标准化处理更准确。的标准化处理更准确。的标准化处理更准确。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、设备、介质和程序产品

[0001]本公开的实施例总体上涉及计算机领域，并且更具体地，涉及文本处理方法、电子设备、计算机可读存储介质和程序产品。

技术介绍

[0002]临床医学术语是医疗数据的重要组成部分，术语标准化技术对于临床研究和临床信息管理系统而言非常重要。然而，不同的医务人员或同一医务人员在不同的场合、时间对同一医学术语的表述可能不同，因此，需要将从电子病历(例如诊断报告)中提取的文本转换为标准术语库(例如，国际疾病分类编码ICD
‑
10)中的标准文本。然而，人工标注的方式通常需要耗费大量人力成本和时间成本，同时，还可能存在医学专业人员的专业知识不足或误操作导致的医学术语标准化错误的情况。
[0003]已有的术语标准化技术通常通过测量基于字符串的距离或基于向量的距离来评估文本的相似性。然而，这种技术的准确度较低。因此，期望提供一种能够使文本的标准化处理更准确的方法。

技术实现思路

[0004]根据本公开的实施例，提供一种用于文本处理的方案，以用于通过使用混合训练方法，来提高文本的标准化处理的准确度。
[0005]在本公开的第一方面，提供了一种文本处理方法。该方法包括：获得第一训练文本以及在标准文本库中被标记为与第一训练文本匹配的第一标准文本，标准文本库包括知识领域中使用的多个标准文本；通过修改标准文本库中的第二标准文本来生成第二训练文本，第二训练文本被标记为与第二标准文本匹配；以及利用第一训练文本、第二训练文本、第一标准文本和第二标准文本，并且根据...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，包括：获得第一训练文本以及在标准文本库中被标记为与所述第一训练文本匹配的第一标准文本，所述标准文本库包括知识领域中使用的多个标准文本；通过修改所述标准文本库中的第二标准文本来生成第二训练文本，所述第二训练文本被标记为与所述第二标准文本匹配；以及利用所述第一训练文本、所述第二训练文本、所述第一标准文本和所述第二标准文本，并且根据训练目标来训练被配置为生成文本的特征表示的模型，所述训练目标至少被确定为使所述模型针对所述第一训练文本生成的第一特征表示能够被重构为所述第一标准文本，并且使所述模型针对所述第二训练文本生成的第二特征表示能够被重构为所述第二标准文本。2.根据权利要求1所述的方法，其中修改所述标准文本库中的所述第二标准文本来生成第二训练文本包括通过按以下至少一项来修改所述第二标准文本：删除所述第二标准文本中的至少一个字符、词或词组；使用具有相同或相似发音的字符来替换所述第二标准文本中的至少一个字符；使用具有相同词根的词来替换所述第二标准文本中的词；以及改变所述第二标准文本中的字符、词或词组的顺序。3.根据权利要求1所述的方法，还包括：通过修改所述第一训练文本来生成第三训练文本，所述第三训练文本被标记为与所述第一标准文本匹配；以及还利用所述第三训练文本和所述第一标准文本，并且根据所述训练目标来训练所述模型，所述训练目标还被确定为使所述模型针对所述第三训练文本生成的第三特征表示能够被重构为所述第一标准文本。4.根据权利要求1所述的方法，还包括：对所述第一训练文本、所述第一标准文本和所述第二标准文本执行预处理，以格式化所述第一训练文本、所述第一标准文本和所述第二标准文本，其中所述第二训练文本基于经预处理的所述第二标准文本来生成。5.根据权利要求1所述的方法，其中训练所述模型包括：针对所述第一训练文本和所述第二训练文本中的每个训练文本，确定所述训练文本对应的向量化表示；通过将所述向量化表示应用到所述模型，来生成所述训练文本对应的训练特征表示；从所述训练特征表示生成所述训练文本对应的重构文本；以及通过使所述重构文本与所述训练文本匹配的标准文本之间的差异降低来更新所述模型的参数集，以满足所述训练目标。6.根据权利要求5所述的方法，其中确定所述训练文本对应的所述向量化表示包括：提取所述训练文本在多个维度上的多个单维度向量化表示；以及通过合并所述多个单维度向量化表示来确定所述向量化表示。7.根据权利要求6所述的方法，其中提取所述多个单维度向量化表示包括提取以下多个单维度向量化表示中的至少一项：在语义维度上提取所述训练文本对应的语义向量化表示；
在文本维度上提取所述训练文本包括的多个文本单元对应的多个单元向量化表示，所述多个文本单元包括字符、词和词组中的至少一项；以及在发音维度上提取所述训练文本的全部或部分发音对应的发音向量化表示。8.一种文本处理方法，包括：利用根据权利要求1至7中任一项所述的方法训练的模型，确定目标文本对应的目标特征表示；获得所述标准文本库中的多个标准文本对应的多个标准特征表示；确定所述目标特征表示与所述多个标准特征表示之间的多个表示相似度得分；以及至少基于所述多个表示相似度得分，确定所述多个标准文本中与所述目标文本匹配的标准文本。9.根据权利要求8所述的方法，其中至少基于所述多个表示相似度得分确定与所述目标文本匹配的标准文本包括：基于所述多个表示相似度得分，从所述多个标准文本选择针对所述目标文本的多个候选标准文本；确定所述目标文本与所述多个候选标准文本之间的多个文本相似度得分；基于所述多个表示相似度得分和所述多个文本相似度得分，确定所述目标文本与所述多个候选标准文本之间的多个置信度得分；以及基于所述多个置信度得分，从所述多个候选标准文本中选择与所述目标文本匹配的所述标准文本。10.根据权利要求8所述的方法，其中所述多个标准特征表示由所述模型确定。11.一种电子设备，包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：获得第一训练文本以及在标准文本库中被标记为与所述第一训练文本匹配的第一标准文本，所述标准文本库包括知识领域中使用的多个标准文本；通过修改所述标准文本库中的第二标准文本来生成第...

【专利技术属性】
技术研发人员：许梦竹，田聪，袁亚娜，
申请(专利权)人：皇家飞利浦有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人