System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,具体涉及一种文本的异常识别方法、装置、计算机设备及存储介质。
技术介绍
1、随着互联网技术的发展,通过互联网公开发布的文本数据流越来越多,难免会存在某些情况下有人通过特殊的文本片段标识达成恶意目的。例如,通过在文本中添加特殊片段以暗示用户恶意刷单、引导用户访问恶意网站等。然而,这种异常一般只出现在文本中的片段,而非整条文本的异常,且这种异常通常具有聚集性。相关技术中的异常片段识别方式难以实现流式数据中的聚集类异常片段的精准识别,影响了异常文本的识别效果和识别实时性。
技术实现思路
1、有鉴于此,本公开提供了一种文本的异常识别方法、装置、计算机设备及存储介质,以解决难以准确识别流式文本数据中的异常文本的问题。
2、第一方面,本公开提供了一种文本的异常识别方法,包括:获取文本数据流中的多条待识别的目标文本;对各条目标文本的文本片段进行抽取,得到各条目标文本对应的目标文本片段;基于各条目标文本片段的特征属性,对各条目标文本片段进行聚类,得到异常文本片段类;基于异常文本片段类对进入文本数据流的新文本进行异常识别,确定新文本是否存在异常。
3、本公开实施例提供的文本的异常识别方法,通过抽取多条目标文本中的目标文本片段,结合目标文本片段的特征属性对目标文本片段进行聚类处理,以通过聚集性确定聚类得到的文本片段类是否为异常文本片段类,结合多条目标文本准确判定文本的异常信息,从而实现了针对于流式文本数据中的异常文本片段的精准识别。在确定出异常文本片段类之后,
4、第二方面,本公开提供了一种文本的异常识别装置,包括:获取模块,用于获取文本数据流中的多条待识别的目标文本;文本片段抽取模块,用于对各条目标文本的文本片段进行抽取,得到各条目标文本对应的目标文本片段;聚类模块,用于基于各条目标文本片段的特征属性,对各条目标文本片段进行聚类,得到异常文本片段类;异常识别模块,用于基于异常文本片段类对进入文本数据流的新文本进行异常识别,确定新文本是否存在异常。
5、第三方面,本公开提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的文本的异常识别方法。
6、第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的文本的异常识别方法。
本文档来自技高网...【技术保护点】
1.一种文本的异常识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对各条所述目标文本的文本片段进行抽取,得到各条所述目标文本对应的目标文本片段,包括:
3.根据权利要求2所述的方法,其特征在于,对各条所述目标文本中的命名实体进行识别,得到各条所述目标文本对应的实体字段,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于各条所述目标文本片段的属性,对各条所述目标文本片段进行聚类,得到异常文本片段类,包括:
5.根据权利要求4所述的方法,其特征在于,当所述相关性判定规定为从属类规则时,所述聚类策略为从属聚类策略;
6.根据权利要求4所述的方法,其特征在于,当所述相关性判定规定为相似类规则时,所述聚类策略为相似聚类策略;
7.根据权利要求6所述的方法,其特征在于,所述基于所述相似度对所述目标文本片段进行聚类,生成所述目标文本片段,包括:
8.根据权利要求7所述的方法,其特征在于,还包括:
9.根据权利要求1所述的方法,其特征在于,所述基于所述异常文本片段类
10.一种文本的异常识别装置,其特征在于,包括:
11.一种计算机设备,其特征在于,包括:
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的文本的异常识别方法。
...【技术特征摘要】
1.一种文本的异常识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对各条所述目标文本的文本片段进行抽取,得到各条所述目标文本对应的目标文本片段,包括:
3.根据权利要求2所述的方法,其特征在于,对各条所述目标文本中的命名实体进行识别,得到各条所述目标文本对应的实体字段,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于各条所述目标文本片段的属性,对各条所述目标文本片段进行聚类,得到异常文本片段类,包括:
5.根据权利要求4所述的方法,其特征在于,当所述相关性判定规定为从属类规则时,所述聚类策略为从属聚类策略;
6.根据权利要求4所述的方法,其特征在于,当所述相关性判定规定为相似类...
【专利技术属性】
技术研发人员:白浩东,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。