System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本检测方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:44693649 阅读:4 留言:0更新日期:2025-03-19 20:42
本公开提供了一种文本检测方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、知识图谱等领域。具体实现方案为:根据待检测的原始字符串中各个字符的特征,对原始字符串进行实体抽取,得到原始字符串中发生变体的目标字符串,以及得到目标字符串的实体类别;根据实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将目标字符转换为变体前的字符,得到转换后的字符串;其中,目标字符为目标字符串中的字符;以及根据转换后的字符串,确定原始字符串的检测结果。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及深度学习、知识图谱等领域,更具体地,本公开提供了一种文本检测方法、装置、电子设备、存储介质以及计算机程序产品。


技术介绍

1、在视频网站、贴吧、购物平台等网络平台中,一些用户会在发布的字符串中携带网址、手机号等附加信息进行引流,并且有时会利用音近或形近的变体字来规避机器审核。由于字符的变换方式较多,且变换速度快,因此,难以准确检测字符串是否存在用于引流的附加信息。


技术实现思路

1、本公开提供了一种文本检测方法、装置、电子设备、存储介质以及计算机程序产品。

2、根据本公开的一方面,提供了一种文本检测方法,包括:根据待检测的原始字符串中各个字符的特征,对原始字符串进行实体抽取,得到原始字符串中发生变体的目标字符串,以及得到目标字符串的实体类别;根据实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将目标字符转换为变体前的字符,得到转换后的字符串;其中,目标字符为目标字符串中的字符;以及根据转换后的字符串,确定原始字符串的检测结果。

3、根据本公开的另一方面,提供了一种文本检测装置,包括:实体抽取模块、转换模块和结果确定模块。实体抽取模块用于根据待检测的原始字符串中各个字符的特征,对原始字符串进行实体抽取,得到原始字符串中发生变体的目标字符串,以及得到目标字符串的实体类别。转换模块用于根据实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将目标字符转换为变体前的字符,得到转换后的字符串;其中,目标字符为目标字符串中的字符。结果确定模块用于根据转换后的字符串,确定原始字符串的检测结果。

4、根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的方法。

5、根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的方法。

6、根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开提供的方法。

7、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本检测方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将所述目标字符转换为变体前的字符包括:

3.根据权利要求2所述的方法,其中,所述候选字符中的多个子特征与所述目标字符中的多个子特征具有对应关系;所述根据所述实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将所述目标字符转换为变体前的字符还包括:

4.根据权利要求1所述的方法,其中,所述根据所述转换后的字符串,确定所述原始字符串的检测结果包括:

5.根据权利要求1至4中任意一项所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所述根据待检测的原始字符串中各个字符的特征,对所述原始字符串进行实体抽取,得到所述原始字符串中发生变体的目标字符串包括:

7.一种文本检测装置,包括:

8.根据权利要求7所述的装置,其中,所述转换模块包括:

9.根据权利要求8所述的装置,其中,所述候选字符中的多个子特征与所述目标字符中的多个子特征具有对应关系;所述转换模块还包括:

10.根据权利要求7所述的装置,其中,所述结果确定模块包括:

11.根据权利要求7至10中任意一项所述的装置,还包括:

12.根据权利要求7所述的装置,其中,所述实体抽取模块包括:

13.一种电子设备,包括:

14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的方法。

15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种文本检测方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将所述目标字符转换为变体前的字符包括:

3.根据权利要求2所述的方法,其中,所述候选字符中的多个子特征与所述目标字符中的多个子特征具有对应关系;所述根据所述实体类别,以及候选字符集中各个候选字符与目标字符之间的相似度,将所述目标字符转换为变体前的字符还包括:

4.根据权利要求1所述的方法,其中,所述根据所述转换后的字符串,确定所述原始字符串的检测结果包括:

5.根据权利要求1至4中任意一项所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所述根据待检测的原始字符串中各个字符的特征,对所述原始字符串进行实体抽取,得到所述原始字符串中发生变体的目标字符串包括:

【专利技术属性】
技术研发人员:姜辉李宗鹏吴承辉周晨阳龙泉
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1