一种文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号：40537258 阅读：23 留言：0更新日期：2024-03-01 13:59

本发明专利技术公开了一种文本处理方法、装置、设备及存储介质，通过获取原始文本，调用预先设置的层级多标签分类模型，其中，层级多标签分类模型中包括第一层级分类器和第二层级分类器；基于第一层级分类器对原始文本进行第一层级分类处理，得到原始文本所属的类型信息；基于原始文本和类型信息，通过第二层级分类器得到原始文本的标准文本，将极大规模的文本分类任务分解为两个小规模的文本分类任务，解决了极大规模的文本分类难度大、精度不高的问题，降低了原始文本‑标准文本的分类难度，提高了分类精度，提升了文本标准化的准确性和可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及自然语言处理领域，涉及一种文本处理方法、装置、设备及存储介质。

技术介绍

1、临床术语标准化任务是医学数据统计分析中不可或缺的一项任务。临床上，关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化要解决的问题就是为临床上各种不同说法找到对应的标准说法。目前采用的标准一般为世界卫生组织发布的《疾病和有关健康问题的国际统计分类(icd-10)》(简称icd-10编码)。有了术语标准化的基础，研究人员才可对电子病历进行后续的统计分析。

2、现有技术将临床术语标准化任务看作文本分类任务，通常采用基于深度学习的方法进行临床术语标准化，利用神经网络模型在文本建模上进行表征学习，提取词语的上下文关系和重要词语的信息，将原始文本与标准文本进行特征匹配，将原始文本按照匹配的标准文本进行分类。基于大规模预训练语言模型的深度学习方法，在语义理解层面的优势使得更加精准的自动术语标准化成为可能。

3、然而，电子病历写作的专业性及文本中常见的书写不规范等因素，使得医疗原词表述方式过于多样，并且临床术语标准词类型非常多，因此利用单一分类器将原始文本按照标准文本进行分类是一个极大规模的文本分类任务，在现有分类模型不是很完备、计算能力有限的情况下，分类难度很大，精度不高，使得深度学习自动术语标准化准确率较低、可用性较差。

技术实现思路

1、本专利技术提供了一种文本处理方法、装置、设备及存储介质，以解决在现有分类模型不是很完备的情况下，原始文本

2、根据本专利技术的一方面，提供了一种文本处理方法，包括：

3、获取原始文本，调用预先设置的层级多标签分类模型，其中，层级多标签分类模型中包括第一层级分类器和第二层级分类器；

4、基于第一层级分类器对原始文本进行第一层级分类处理，得到原始文本所属的类型信息；

5、基于原始文本和类型信息，通过第二层级分类器得到原始文本的标准文本。

6、根据本专利技术的另一方面，提供了一种文本处理装置，包括：

7、分类器调用模块，用于获取原始文本，调用预先设置的层级多标签分类模型，其中，层级多标签分类模型中包括第一层级分类器和第二层级分类器；

8、第一层级分类模块，用于基于第一层级分类器对原始文本进行第一层级分类处理，得到原始文本所属的类型信息；

9、第二层级分类模块，用于基于原始文本和类型信息，通过第二层级分类器得到原始文本的标准文本。

10、根据本专利技术的另一方面，提供了一种电子设备，电子设备包括：

11、至少一个处理器；以及

12、与至少一个处理器通信连接的存储器；其中，

13、存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本专利技术任一实施例的文本处理方法。

14、根据本专利技术的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本专利技术任一实施例的文本处理方法。

15、本专利技术实施例的技术方案，通过获取原始文本，调用预先设置的层级多标签分类模型，其中，层级多标签分类模型中包括第一层级分类器和第二层级分类器；基于第一层级分类器对原始文本进行第一层级分类处理，得到原始文本所属的类型信息；基于原始文本和类型信息，通过第二层级分类器得到原始文本的标准文本，将极大规模的文本分类任务分解为两个小规模的文本分类任务，解决了利用单一分类器进行原始文本-标准文本极大规模的文本分类难度很大，精度不高的问题，降低了原始文本-标准文本的分类难度，提高了分类精度，提升了自动术语标准化的准确性和可用性。

16、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其他特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述层级多标签分类模型中包括多个类型信息分别对应的第二层级分类器；

3.根据权利要求1所述的方法，其特征在于，所述基于所述原始文本和类型信息，通过所述第二层级分类器得到所述原始文本的标准文本，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述原始文本为电子病历中的医疗原词；

5.根据权利要求1所述的方法，其特征在于，所述第一层级分类器的输出结果为多个类型信息的第一分类码序列，所述原始文本所属的类型信息为所述第一分类码序列中第一分类码对应的类型，所述原始文本所属的类型信息为至少一个；

6.根据权利要求1所述的方法，其特征在于，训练所述层级多标签分类模型包括：

7.根据权利要求6所述的方法，其特征在于，在对所述第一层级分类器或所述第二层级分类器的训练过程中还包括：

8.一种文本处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质

...

【技术特征摘要】

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述层级多标签分类模型中包括多个类型信息分别对应的第二层级分类器；

3.根据权利要求1所述的方法，其特征在于，所述基于所述原始文本和类型信息，通过所述第二层级分类器得到所述原始文本的标准文本，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述原始文本为电子病历中的医疗原词；

5.根据权利要求1所述的方法，其特征在于，所述第一层级分类器的输出结果为多个类型信息的第一分类码序列，所述原始文本所属的类型信息为所述第一分类码...

【专利技术属性】
技术研发人员：高宇桄，邓铭涛，张艳鹏，
申请(专利权)人：上海数涞科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人