System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种英文文本数据清洗方法、装置、存储介质及设备制造方法及图纸_技高网

一种英文文本数据清洗方法、装置、存储介质及设备制造方法及图纸

技术编号:40509317 阅读:12 留言:0更新日期:2024-03-01 13:24
本申请公开了一种英文文本数据清洗方法、装置、存储介质及设备,该方法包括:首先获取待清洗的目标英文文本数据;并对其进行脱敏处理,得到脱敏后的目标英文文本数据,然后通过串并联的N个不同路径,对脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到N个不同路径各自对应的纠错后的目标英文文本数据;接着利用预训练语言模型对目标英文文本数据和N个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对目标英文文本数据进行清洗,得到清洗结果。从而能够在利用串并联的N个不同路径实现对于错误信息的深度挖掘和顺序多样化的多路径纠错后,准确清洗出高质量英文文本数据,提高了数据清洗效果。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种英文文本数据清洗方法、装置、存储介质及设备


技术介绍

1、随着社会经济的快速发展,国际交流日益增多,英文作为国际上使用最广泛的语言之一,已在语音识别、人机交互等各个领域被广泛应用,为人们带来极大的便利,而在这些领域中,通过网络下载等方式获取到的英文文本数据中可能会存在较多的冗余、缺失、错误的脏数据。为了满足各场景的业务需求、需要从这些英文文本数据中清洗出高质量数据,用以训练语言模型,以提升模型的语料区分和语言识别等能力。

2、目前,对于英文文本数据进行清洗的方法通常采用的是借助开源工具进行串行结构的数据清洗,该清洗方式由于在清洗流程中开源工具的顺序比较固化,只能对英文文本数据进行浅层次的规则清洗,导致清洗效果较差,得到的清洗后的英文文本数据的质量也不高。


技术实现思路

1、本申请实施例的主要目的在于提供一种英文文本数据清洗方法、装置、存储介质及设备,能够实现英文文本数据更为准确的高质量清洗,进而提高英文文本数据的清洗效果。

2、本申请实施例提供了一种英文文本数据清洗方法,包括:

3、获取待清洗的目标英文文本数据;并对所述目标英文文本数据进行脱敏处理,得到脱敏后的目标英文文本数据;

4、通过串并联的n个不同路径,对所述脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到所述n个不同路径各自对应的纠错后的目标英文文本数据,所述n为不小于零的整数;

5、利用预训练语言模型对所述目标英文文本数据和所述n个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对所述目标英文文本数据进行清洗,得到清洗结果。

6、一种可能的实现方式中,所述对所述目标英文文本数据进行脱敏处理,得到脱敏后的目标英文文本数据,包括:

7、利用敏感词过滤的开源工具textfilter对所述目标英文文本数据进行敏感词过滤处理,得到脱敏后的目标英文文本数据。

8、一种可能的实现方式中,所述通过串并联的n个不同路径,对所述脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到所述n个不同路径各自对应的纠错后的目标英文文本数据,所述n为不小于零的整数,包括:

9、通过第一路径、第二路径、第三路径分别对所述脱敏后的目标英文文本数据进行单词拼写纠错、句子拼写纠错、分隔符缺失检测的并联纠错处理,得到第一路径对应的纠错后的目标英文文本数据、第二路径对应的纠错后的目标英文文本数据、第三路径对应的纠错后的目标英文文本数据;

10、对所述第一路径对应的纠错后的目标英文文本数据进行分隔符缺失检测纠错处理,得到更新后的第一路径对应的纠错后的目标英文文本数据;

11、对所述第二路径对应的纠错后的目标英文文本数据进行分隔符缺失检测纠错处理,得到更新后的第二路径对应的纠错后的目标英文文本数据;

12、对所述第三路径对应的纠错后的目标英文文本数据分别进行单词拼写纠错和句子拼写纠错的并联纠错处理,得到两个更新后的第三路径对应的纠错后的目标英文文本数据;

13、将所述第一路径对应的纠错后的目标英文文本数据、第二路径对应的纠错后的目标英文文本数据、第三路径对应的纠错后的目标英文文本数据、更新后的第一路径对应的纠错后的目标英文文本数据、更新后的第二路径对应的纠错后的目标英文文本数据和两个更新后的第三路径对应的纠错后的目标英文文本数据,组成所述n个不同路径各自对应的纠错后的目标英文文本数据。

14、一种可能的实现方式中,所述第一路径对应的纠错后的目标英文文本数据的获取方式如下:

15、在利用第一路径对所述脱敏后的目标英文文本数据进行单词拼写纠错时,通过对所述脱敏后的目标英文文本数据中每个单词进行实体词和集外词的识别,确定第一路径对应的纠错后的目标英文文本数据。

16、一种可能的实现方式中,所述通过对所述脱敏后的目标英文文本数据中每个单词进行实体词和集外词的识别,确定第一路径对应的纠错后的目标英文文本数据,包括:

17、判断所述脱敏后的目标英文文本数据中每个单词是否为实体词;

18、若是,则不进行单词拼写纠错处理,直接将所述脱敏后的目标英文文本数据作为第一路径对应的纠错后的目标英文文本数据;

19、若否,则判断所述脱敏后的目标英文文本数据中的非实体单词是否存在拼写错误;

20、若存在,则遍历所述非实体单词对应的拼写纠错后的所有候选词,并在判断出当前候选词不是集外词时,利用当前候选词替换所述非实体单词,得到第一路径对应的纠错后的目标英文文本数据;或者在判断出当前候选词是集外词时,保持所述非实体单词不变,依次类推,直至确定出第一路径对应的纠错后的目标英文文本数据。

21、一种可能的实现方式中,所述通过串并联的n个不同路径,对所述脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到所述n个不同路径各自对应的纠错后的目标英文文本数据,所述n为不小于零的整数,包括:

22、通过四个不同路径分别对所述脱敏后的目标英文文本数据进行单词拼写纠错、句子拼写纠错、分隔符缺失检测和语法纠错的并联纠错处理,得到这四个路径分别对应的第一纠错后的目标英文文本数据、第二纠错后的目标英文文本数据、第三纠错后的目标英文文本数据、第四纠错后的目标英文文本数据;

23、通过m个不同路径分别对所述第一纠错后的目标英文文本数据进行分隔符缺失检测和语法纠错的串并联纠错处理,得到所述m个路径对应的m个第五纠错后的目标英文文本数据;所述m为不小于零且小于n的整数;

24、通过k个不同路径分别对所述第二纠错后的目标英文文本数据进行分隔符缺失检测和语法纠错的串并联纠错处理,得到所述k个路径对应的k个第六纠错后的目标英文文本数据;所述k为不小于零且小于n的整数;

25、通过s个不同路径分别对所述第三纠错后的目标英文文本数据进行单词拼写纠错、句子拼写纠错和语法纠错的串并联纠错处理,得到所述s个路径对应的s个第七纠错后的目标英文文本数据;所述s为不小于零且小于n的整数;

26、将所述第一纠错后的目标英文文本数据、第二纠错后的目标英文文本数据、第三纠错后的目标英文文本数据、第四纠错后的目标英文文本数据、所述m个第五纠错后的目标英文文本数据、所述k个第六纠错后的目标英文文本数据、所述s个第七纠错后的目标英文文本数据,组成所述n个不同路径各自对应的纠错后的目标英文文本数据。

27、一种可能的实现方式中,所述利用预训练语言模型对所述目标英文文本数据和所述n个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对所述目标英文文本数据进行清洗,得到清洗结果,包括:

28、利用预训练语言模型对所述目标英文文本数据和所述n个不同路径各自对应的纠错后的目标英文文本数据进行评分,得到目标英文文本数据对应的得分和n个纠错后的目本文档来自技高网...

【技术保护点】

1.一种英文文本数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述目标英文文本数据进行脱敏处理,得到脱敏后的目标英文文本数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过串并联的N个不同路径,对所述脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到所述N个不同路径各自对应的纠错后的目标英文文本数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一路径对应的纠错后的目标英文文本数据的获取方式如下:

5.根据权利要求4所述的方法,其特征在于,所述通过对所述脱敏后的目标英文文本数据中每个单词进行实体词和集外词的识别,确定第一路径对应的纠错后的目标英文文本数据,包括:

6.根据权利要求1所述的方法,其特征在于,所述通过串并联的N个不同路径,对所述脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到所述N个不同路径各自对应的纠错后的目标英文文本数据,包括:

7.根据权利要求1所述的方法,其特征在于,所述利用预训练语言模型对所述目标英文文本数据和所述N个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对所述目标英文文本数据进行清洗,得到清洗结果,包括:

8.根据权利要求6所述的方法,其特征在于,所述预设文本采样算法为帕累托采样算法。

9.一种英文文本数据清洗装置,其特征在于,包括:

10.一种英文文本数据清洗设备,其特征在于,包括:处理器、存储器、系统总线;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种英文文本数据清洗方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述目标英文文本数据进行脱敏处理,得到脱敏后的目标英文文本数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过串并联的n个不同路径,对所述脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到所述n个不同路径各自对应的纠错后的目标英文文本数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一路径对应的纠错后的目标英文文本数据的获取方式如下:

5.根据权利要求4所述的方法,其特征在于,所述通过对所述脱敏后的目标英文文本数据中每个单词进行实体词和集外词的识别,确定第一路径对应的纠错后的目标英文文本数据,包括:

6.根据权利要求1所述的方法,其特征在于,所述通过串并联的n个不同路径,对...

【专利技术属性】
技术研发人员:焦义戚婷张钟泽朱晓斐马志强李永超方昕
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1