System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本识别,特别是涉及一种变体文本的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、随着科技的不断发展,越来越多未成年人参与到网络世界中,加强各种网络平台对未成年人的识别和管控成为了重中之重。比如,在直播领域,需要对存在风险的文本进行识别。
2、然而,部分账户为了规避传统的识别方式,会将存在风险的文本进行变换,得到文本的变体或者变种,进而使用变换后的文本直播等网络场景下使用,导致传统的针对存在风险的文本的识别方法,难以适用于未成年人变种识别。因此,目前的针对存在风险的文本的识别方法,存在着识别准确率较低的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升针对变体文本的识别准确率的变体文本的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请实施例提供了一种变体文本的识别方法。所述方法包括:
3、获取待识别文本;
4、获取至少两个不同的文本还原链,根据文本还原链中各文本还原节点对应的文本还原规则,按照各所述文本还原节点的执行顺序,依次对所述待识别文本进行还原,得到至少两个还原后文本;
5、根据预设的评分规则,对所述至少两个还原后文本进行评分,得到各所述还原后文本对应的评分值;所述评分值表征各所述还原后文本中包含预设词组的密集程度,所述预设词组为与未成年人关联的词组;
6、按照各所述还原后文本对应所述评分值的大小顺序,
7、在其中一个实施例中,在所述依次对所述待识别文本进行还原的步骤之前,所述方法还包括:
8、根据预设的字符转换集,将所述待识别文本中的第一字符替换为所述第一字符对应的第二字符,得到替换后的所述待识别文本;
9、其中,所述字符转换集包括所述第一字符和所述第二字符的对应关系,所述第一字符的使用频率小于所述第二字符的使用频率。
10、在其中一个实施例中,所述根据预设的评分规则,对所述至少两个还原后文本进行评分,得到各所述还原后文本对应的评分值,包括:
11、识别到各所述还原后文本中包含的各实体词组;
12、在所述实体词组为所述预设词组的情况下,将所述还原后文本的评分值增加所述预设词组对应的单位评分值;
13、将各所述还原后文本对应的各项单位评分值进行累加,得到各所述还原后文本对应的评分值。
14、在其中一个实施例中,所述获取至少两个不同的文本还原链,包括:
15、获取预构建的各所述文本还原节点;所述文本还原节点用于按照对应的所述文本还原规则对文本进行还原;
16、根据各所述文本还原节点的执行顺序,将各所述文本还原节点进行组装,得到组装后的至少两个不同的所述文本还原链。
17、在其中一个实施例中,所述将各所述文本还原节点进行组装,得到组装后的至少两个不同的所述文本还原链,包括:
18、获取组装好的所述文本还原链,从各所述文本还原节点中确定待增加的节点;
19、将所述组装好的所述文本还原链,和所述待增加的节点进行再次组装,得到复合的所述文本还原链。
20、在其中一个实施例中,所述文本还原节点包括移除类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
21、识别到待移除的目标;所述待移除的目标包括:预设字符、预设标点符号、处在设定位置的符号、连续的字符;
22、将所述文本还原节点对应的所述文本还原规则设置为,删除文本中的所述待移除的目标,以根据所述文本还原规则构建得到所述移除类型的文本还原节点。
23、在其中一个实施例中,所述文本还原节点包括压缩类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
24、识别到待压缩的目标;所述待压缩的目标包括连续的字符;
25、将所述文本还原节点对应的所述文本还原规则设置为,将文本中的所述待压缩的字符长度压缩为目标长度,以根据所述文本还原规则构建得到所述压缩类型的文本还原节点。
26、在其中一个实施例中,所述文本还原节点包括移动类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
27、识别到待移动的目标;所述待移动的目标包括属于目标字符类型的字符;所述目标字符类型包括数字类型;
28、将所述文本还原节点对应的所述文本还原规则设置为,将文本中的所述待移动的字符转移到文本的首端或者末端,以根据所述文本还原规则构建得到所述移动类型的文本还原节点。
29、第二方面,本申请还提供了一种变体文本的识别装置。所述装置包括:
30、文本获取模块,用于获取待识别文本;
31、文本还原模块,用于获取至少两个不同的文本还原链,根据文本还原链中各文本还原节点对应的文本还原规则,按照各所述文本还原节点的执行顺序,依次对所述待识别文本进行还原,得到至少两个还原后文本;
32、文本评分模块,用于根据预设的评分规则,对所述至少两个还原后文本进行评分,得到各所述还原后文本对应的评分值;所述评分值表征各所述还原后文本中包含预设词组的密集程度,所述预设词组为与未成年人关联的词组;
33、模型识别模块,用于按照各所述还原后文本对应所述评分值的大小顺序,依次将各所述还原后文本输入到文本识别模型中;所述文本识别模型用于输出各所述还原后文本对应的识别结果,所述识别结果用于表征所述还原后文本对应的所述待识别文本是否为存在风险的文本,所述存在风险的文本为与未成年人关联的文本经过变换后得到的变体文本。
34、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
35、获取待识别文本;
36、获取至少两个不同的文本还原链,根据文本还原链中各文本还原节点对应的文本还原规则,按照各所述文本还原节点的执行顺序,依次对所述待识别文本进行还原,得到至少两个还原后文本;
37、根据预设的评分规则,对所述至少两个还原后文本进行评分,得到各所述还原后文本对应的评分值;所述评分值表征各所述还原后文本中包含预设词组的密集程度,所述预设词组为与未成年人关联的词组;
38、按照各所述还原后文本对应所述评分值的大小顺序,依次将各所述还原后文本输入到文本识别模型中;所述文本识别模型用于输出各所述还原后文本对应的识别结果,所述识别结果用于表征所述还原后文本对应的所述待识别文本是否为存在风险的文本,所述存在风险的文本为与未成年人关联的文本经过变换后得到本文档来自技高网...
【技术保护点】
1.一种变体文本的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述依次对所述待识别文本进行还原的步骤之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据预设的评分规则,对所述至少两个还原后文本进行评分,得到各所述还原后文本对应的评分值,包括:
4.根据权利要求1所述的方法,其特征在于,所述获取至少两个不同的文本还原链,包括:
5.根据权利要求4所述的方法,其特征在于,所述将各所述文本还原节点进行组装,得到组装后的至少两个不同的所述文本还原链,包括:
6.根据权利要求4所述的方法,其特征在于,所述文本还原节点包括移除类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
7.根据权利要求4所述的方法,其特征在于,所述文本还原节点包括压缩类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
8.根据权利要求4所述的方法,其特征在于,所述文本还原节点包括移动类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
...【技术特征摘要】
1.一种变体文本的识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述依次对所述待识别文本进行还原的步骤之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据预设的评分规则,对所述至少两个还原后文本进行评分,得到各所述还原后文本对应的评分值,包括:
4.根据权利要求1所述的方法,其特征在于,所述获取至少两个不同的文本还原链,包括:
5.根据权利要求4所述的方法,其特征在于,所述将各所述文本还原节点进行组装,得到组装后的至少两个不同的所述文本还原链,包括:
6.根据权利要求4所述的方法,其特征在于,所述文本还原节点包括移除类型的文本还原节点,所述获取预构建的各所述文本还原节点,包括:
7.根据权利要求4所述的方法,其特征在于...
【专利技术属性】
技术研发人员:邓其春,马金龙,吴文亮,熊佳,王伟喆,张政统,黎子骏,曾锐鸿,马飞,徐志坚,谢睿,陈光尧,
申请(专利权)人:广州趣研网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。