System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及一种文本的分类方法及装置、电子设备和存储介质。
技术介绍
1、随着互联网的迅猛发展,用户生成内容的数量和多样性也不断增加。然而,这种大量的用户生成内容也带来了一些问题,如虚假信息、恶意攻击、违法内容等,给用户带来了困扰和威胁。为了确保互联网空间的安全和健康发展,高效及精准的违规文本识别成为一个关键手段之一。
2、目前,不法分子为绕过违规文本识别系统的检测与拦截,会使用变体字、插入干扰字符等手段,如形近、音近字、拼音替换和偏旁部首拆解等手段。由于变体字变换方式多,变换速度快,单纯通过规则进行变体词发现的效果有限,配套人工审核成本高且具有滞后性。
技术实现思路
1、本公开提供了一种文本的分类方法、装置、电子设备和存储介质。
2、根据本公开的第一方面,提供了一种文本的分类方法,其中,包括:
3、基于第一训练用数据对预设文本识别模型进行训练,得到所述预设文本识别模型对所述第一训练用数据的类型的第一预测概率;
4、根据预设范围阈值对所述第一预测概率进行筛选,得到筛选后的第二预测概率对应的第二训练用数据;其中,所述第一训练用数据包含所述第二训练用数据;
5、根据所述第二训练用数据及类型对所述预设文本识别模型进行训练。
6、可选的,在基于第一训练用数据对预设文本识别模型进行训练,得到所述预设文本识别模型对所述第一训练用数据的类型的第一预测概率之前,所述方法还包括:
7、所述根据预设训练
8、可选的,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
9、获取第三训练用数据,并按照预设方式对所述第三训练用数据中的字符进行遮挡,基于所述遮挡字符后的第三训练用数据对所述预设文本识别模型进行遮掩语言训练,得到所述预设文本识别模型对遮挡字符的预测字符;
10、根据所述预测字符与真实字符计算第一损失函数,并根据所述第一损失函数对所述预设文本识别模型的参数进行调整。
11、可选的,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
12、将第四训练用数据输入所述预设文本识别模型中,对所述预设文本识别模型进行对抗性掩码注入预训练,得到所述预设文本识别模型输出的,对所述第四训练用数据中的违规文本的掩码注入结果;
13、根据所述违规文本的掩码注入结果与标准掩码注入结果计算第二损失函数,根据所述第二损失函数对所述预设文本识别模型的参数进行调整。
14、可选的,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
15、将第五训练用数据输入所述预设文本识别模型中,对所述预设文本识别模型进行文本还原训练,得到所述预设文本识别模型输出的,对所述第五训练用数据的预测输出序列及预测概率分布;其中,所述预测概率分布中包含每个字符的字体预测概率、保留预测概率;所述字体包括正常字体及变体字体;
16、根据所述预测输出序列及所述字体预测概率、所述保留预测概率计算第三损失函数,根据所述第三损失函数对所述预设文本识别模型的参数进行调整。
17、可选的,在根据预设训练任务对所述预设文本识别模型进行训练,得到训练好的预设文本识别模型之后,所述方法还包括:
18、对所述预设文本识别模型进行文本分类训练;
19、所述对所述预设文本识别模型进行文本分类训练包括:
20、在所述预设文本识别模型进行遮掩语言训练时,将所述第三训练用数据的数据类型分类为正常;
21、在所述预设文本识别模型进行对抗性掩码注入预训练时,将所述第四训练用数据中的未进行掩码注入的数据的数据类型分类为异常,将所述第四训练用数据中的标准掩码注入结果的数据类型分类为正常。
22、可选的,在根据所述第二训练用数据及类型对所述预设文本识别模型进行训练之后,所述方法还包括:
23、将待识别文本数据输入所述预设文本识别模型中,得到所述预设文本识别模型输出的所述待识别文本数据的数据类型。
24、根据本公开的第二方面,提供了一种文本的分类装置,包括:
25、第一训练单元,用于基于第一训练用数据对预设文本识别模型进行训练,得到所述预设文本识别模型对所述第一训练用数据的类型的第一预测概率;
26、筛选单元,用于根据预设范围阈值对所述第一预测概率进行筛选,得到筛选后的第二预测概率对应的第二训练用数据;其中,所述第一训练用数据包含所述第二训练用数据;
27、第二训练单元,用于根据所述第二训练用数据及类型对所述预设文本识别模型进行训练。
28、可选的,所述装置还包括:
29、第三训练单元,用于在第一训练单元基于第一训练用数据对预设文本识别模型进行训练,得到所述预设文本识别模型对所述第一训练用数据的类型的第一预测概率之前,所述根据预设训练任务对所述预设文本识别模型进行训练,得到训练好的预设文本识别模型;其中,所述预设训练任务包含遮掩语言训练、对抗性掩码注入预训练及文本还原中的至少一种。
30、可选的,所述第三训练单元还包括:
31、第一训练模块,用于获取第三训练用数据,并按照预设方式对所述第三训练用数据中的字符进行遮挡,基于所述遮挡字符后的第三训练用数据对所述预设文本识别模型进行遮掩语言训练,得到所述预设文本识别模型对遮挡字符的预测字符;
32、第一调整单元,用于根据所述预测字符与真实字符计算第一损失函数,并根据所述第一损失函数对所述预设文本识别模型的参数进行调整。
33、可选的,所述第三训练单元包括:
34、第二训练模块,用于将第四训练用数据输入所述预设文本识别模型中,对所述预设文本识别模型进行对抗性掩码注入预训练,得到所述预设文本识别模型输出的,对所述第四训练用数据中的违规文本的掩码注入结果;
35、第二调整单元,用于根据所述违规文本的掩码注入结果与标准掩码注入结果计算第二损失函数,根据所述第二损失函数对所述预设文本识别模型的参数进行调整。
36、可选的,所述第三训练单元包括:
37、第三训练模块,用于将第五训练用数据输入所述预设文本识别模型中,对所述预设文本识别模型进行文本还原训练,得到所述预设文本识别模型输出的,对所述第五训练用数据的预测输出序列及预测概率分布;其中,所述预测概率分布中包含每个字符的字体预测概率、保留预测概率;所述字体包括正常字体及变体字体;
38、第三调整单元,用于根据所述预测输出序列及所述字体预测概率、所述保留预测概率计算第三损失函数,根据所述第三损失函数对所述预设文本识别模型的参数本文档来自技高网...
【技术保护点】
1.一种文本的分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在基于第一训练用数据对预设文本识别模型进行训练,得到所述预设文本识别模型对所述第一训练用数据的类型的第一预测概率之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
4.根据权利要求2所述的方法,其特征在于,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
5.根据权利要求2所述的方法,其特征在于,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
6.根据权利要求2-4中任一项所述的方法,其特征在于,在根据预设训练任务对所述预设文本识别模型进行训练,得到训练好的预设文本识别模型之后,所述方法还包括:
7.根据权利要求1-5中任一项所述的方法,其特征在于,在根据所述第二训练用数据及类型对所述预设文本识别模型进行训练之后,所述方法还包括:
8.
9.一种电子设备,其特征在于,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种文本的分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在基于第一训练用数据对预设文本识别模型进行训练,得到所述预设文本识别模型对所述第一训练用数据的类型的第一预测概率之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
4.根据权利要求2所述的方法,其特征在于,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
5.根据权利要求2所述的方法,其特征在于,所述根据预设训练任务对预设文本识别模型进行训练,得到训练好的所述预设文本识别模型包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:王奥迪,沈治恒,武文静,
申请(专利权)人:中移苏州软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。