System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种水军用户检测方法、装置、设备及介质。
技术介绍
1、随着深度学习和自然语言处理技术的快速发展,已有众多领域取得了巨大成功,相较于传统的机器学习方法,深度学习可以针对规模更大的数据集,自动从原始数据中提取目标特征,而不依赖手工计算特征,尤其是当前基于大规模参数的神经网络模型(比如gpt-2,chatgpt,gpt-3等文本生成器),可以利用海量语料进行预训练和微调目标任务数据,生成高质量的文本内容,甚至达到人类难以分辨真假的程度。
2、这种生成器具有成本低和效率高的优点,如果不法分子利用此类生成器,则会生成大量的信息谣言,会给社会带来一些严重问题。特别地,在大数据时代,社交网络成为人们日常生活中不可或缺的一部分,在一些平台上,尽管用户可以畅所欲言,但是其真实性难以辨别,舆论环境错综复杂,容易受到干扰,一些不法分子利用这些生成器制造大量虚假信息,对经济和社会造成严重损害。
3、在互联网的某些领域充斥着大量水军,比如,在经济领域,如电商评论领域。
4、这里的水军具体是指水军机器人,该水军机器人能根据给定的信息文本,得到不良的评论信息。具体地,水军机器人由两部分组成,一个是自动检测模块,用于监督检测给定的互联网社区中发布的信息,并由此得到该信息的关键特征,另一个是不良信息生成模块,用于根据该发布的信息以及该发布的信息的关键特征生成多样化的不良信息。由于自动检测模块是基于自动方式进行检测的,有着自动系统的内在难于客服的脆弱性。
5、水军利用自动化方法生成大
6、因此,有效准确识别水军用户,以净化网络环境是目前亟待解决的技术问题。
技术实现思路
1、鉴于上述问题,本专利技术提供了一种克服上述问题或者至少部分地解决上述问题的水军用户检测方法、装置、设备及介质。
2、第一方面,本专利技术提供了一种水军用户检测方法,应用于水军用户检测系统中,所述水军用户检测系统包括:
3、样本数据集获取模块,用于获取网络文本集合,所述网络文本集合包括n种文本主题类型,并对所述网络文本集合进行处理,得到样本数据集,所述样本数据集包括多个网络文本数据的样本数据,每个样本数据包括文本主题类型和文本序列,所述文本序列为与所述文本主题类型相关的关键字或者段落内容;
4、生成器,所述生成器基于所述样本数据集和自回归中文预训练语言模型,构建生成,用于基于输入的文本主题类型,输出相应的文本序列,即干扰信息;
5、拼接模块,用于将干扰信息与网络文本数据进行拼接;
6、鉴别器,所述鉴别器基于所述样本数据集和自编码中文预训练语言模型,构建生成,用于基于输入的网络文本数据,输出所述网络文本数据属于任一文本主题类型的概率;
7、所述方法包括:
8、从网络上获取第一网络文本信息;
9、基于生成器、拼接模块和鉴别器,对第一网络文本信息添加干扰信息,得到第二网络文本信息,并将所述第二网络文本信息通过网络进行发布,所述干扰信息不影响用户对第一网络文本信息的识别;
10、获取目标用户对所述第二网络文本信息的第一反馈评论信息;
11、通过鉴别器对所述第一反馈评论信息进行鉴别,确定所述目标用户为水军用户的第一概率。
12、优选地,所述基于生成器、拼接模块和鉴别器,对第一网络文本信息添加干扰信息,得到第二网络文本信息,并将所述第二网络文本信息通过网络进行发布,所述干扰信息不影响用户对第一网络文本信息的识别,包括:
13、基于鉴别器和第一网络文本信息,确定第一网络文本信息的第一网络文本主题类型;
14、从n种文本主题类型中抽取第二网络文本主题类型,所述第一网络文本主题类型与第二网络文本主题类型不同;
15、将所述第二网络文本主题类型输入所述生成器,得到针对第二网络文本主题类型的目标文本序列,即干扰信息;
16、通过拼接模块将所述干扰信息嵌入所述第一网络文本信息中,得到第二网络文本信息,并将所述第二网络文本信息通过网络进行发布。
17、优选地,所述基于鉴别器和第一网络文本信息,确定第一网络文本信息的第一网络文本主题类型,包括:
18、将所述第一网络文本信息输入所述鉴别器,得到第一网络文本信息属于任一网络文本主题类型的概率;
19、基于第一网络文本信息属于任一网络文本主题类型的概率,确定第一网络文本信息的第一网络文本主题类型。
20、优选地,所述通过鉴别器对所述第一反馈评论信息进行鉴别,确定所述目标用户为水军的第一概率,包括:
21、将所述第一反馈评论信息输入所述鉴别器,输出所述第一反馈评论信息属于第二网络文本主题类别的概率;
22、基于所述第一反馈评论信息属于第二网络文本主题类型的概率,确定所述目标用户为水军用户的第一概率。
23、优选地,所述基于所述第一反馈评论信息属于第二网络文本主题类型的概率,确定所述目标用户为水军用户的第一概率,包括:
24、基于所述第一反馈评论信息属于第二网络文本主题类型的概率,按照如下计算式,确定所述目标用户为水军用户的第一概率:,其中,为鉴别器将第一反馈评论信息鉴别为第二网络文本主题类型的概率,为概率阈值。
25、优选地,在所述通过鉴别器对所述第一反馈评论信息进行鉴别,确定所述目标用户为水军用户的第一概率之后,还包括:
26、获取所述目标用户的第二反馈评论信息,所述第二反馈评论信息为针对不同于第二网络文本主题类型的多个网络文本信息的多个反馈评论信息;
27、通过所述鉴别器分别对每个第二反馈评论信息进行鉴别,确定所述目标用户为水军用户的第二概率、第三概率、直至第m概率,m为所有反馈评论信息的数量;
28、基于所述第一概率、第二概率、第三概率,直至第m概率,确定所述目标用户为水军用户的可信度。
29、优选地,所述基于所述第一概率、第二概率、第三概率,直至第m概率,确定所述目标用户为水军用户的可信度,包括:
30、基于所述第一概率、第二概率、第三概率,直至第m概率,确定所述目标用户为水军用户的可信度,具体按照如下计算公式得到:,其中,为所述目标用户为水军用户的可信度,为任意一次目标用户为水军用户的概率。
31、第二方面,本专利技术还提供了一种水军用户检测装置,应用于水军用户检测系统中,所述水军用户检测系统包括:
32、样本数据集获取模块,用于获取网络文本集合,所述网络文本集合包括n种文本文档来自技高网...
【技术保护点】
1.一种水军用户检测方法,应用于水军用户检测系统中,其特征在于,所述水军用户检测系统包括:
2.如权利要求1所述的方法,其特征在于,所述基于生成器、拼接模块和鉴别器,对第一网络文本信息添加干扰信息,得到第二网络文本信息,并将所述第二网络文本信息通过网络进行发布,所述干扰信息不影响用户对第一网络文本信息的识别,包括:
3.如权利要求2所述的方法,其特征在于,所述基于鉴别器和第一网络文本信息,确定第一网络文本信息的第一网络文本主题类型,包括:
4.如权利要求2所述的方法,其特征在于,所述通过鉴别器对所述第一反馈评论信息进行鉴别,确定所述目标用户为水军的第一概率,包括:
5.如权利要求4所述的方法,其特征在于,所述基于所述第一反馈评论信息属于第二网络文本主题类型的概率,确定所述目标用户为水军用户的第一概率,包括:
6.如权利要求1所述的方法,其特征在于,在所述通过鉴别器对所述第一反馈评论信息进行鉴别,确定所述目标用户为水军用户的第一概率之后,还包括:
7.如权利要求6所述的方法,其特征在于,所述基于所述第一概率、第
8.一种水军用户检测装置,应用于水军用户检测系统中,其特征在于,所述水军用户检测系统包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一权利要求所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一权利要求所述的方法步骤。
...【技术特征摘要】
1.一种水军用户检测方法,应用于水军用户检测系统中,其特征在于,所述水军用户检测系统包括:
2.如权利要求1所述的方法,其特征在于,所述基于生成器、拼接模块和鉴别器,对第一网络文本信息添加干扰信息,得到第二网络文本信息,并将所述第二网络文本信息通过网络进行发布,所述干扰信息不影响用户对第一网络文本信息的识别,包括:
3.如权利要求2所述的方法,其特征在于,所述基于鉴别器和第一网络文本信息,确定第一网络文本信息的第一网络文本主题类型,包括:
4.如权利要求2所述的方法,其特征在于,所述通过鉴别器对所述第一反馈评论信息进行鉴别,确定所述目标用户为水军的第一概率,包括:
5.如权利要求4所述的方法,其特征在于,所述基于所述第一反馈评论信息属于第二网络文本主题类型的概率,确定所述目标用户为水军用户的第一概...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。