一种基于自然语言处理的恶意垃圾评论攻击识别方法技术

技术编号:29292873 阅读:20 留言:0更新日期:2021-07-17 00:37
本发明专利技术公开了一种基于自然语言处理的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,包括步骤S1:建立电子商务平台的全部评论语料库L,L={l

A malicious spam comment attack recognition method based on natural language processing

【技术实现步骤摘要】
一种基于自然语言处理的恶意垃圾评论攻击识别方法


[0001]本专利技术属于网络安全
,具体涉及一种基于自然语言处理的恶意垃圾评论攻击识别方法。

技术介绍

[0002]现有的恶意攻击识别多为从纯数据(如日志)中进行分析,根据其记录及访问行为的规律性和相关特征进行识别,但这种方式可能难以识别电子商务评论中的一些以引流、广告等为目的的恶意垃圾评论攻击行为,直接或间接导致其对平台推荐系统的影响与攻击,容易使得平台的评论数据遭到污染,同时也会有潜在的更高危的攻击威胁。
[0003]公开号为:CN109344388A,主题名称为一种垃圾评论识别方法、装置及计算机可读存储介质的专利技术专利,其技术方案公开了“获取待识别评论文本信息;
[0004]将所述待识别评论文本信息转换成评论语音信息,确定所述评论语音信息与评论样本语音信息的语音相似度;
[0005]根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论”。
[0006]以上述专利技术专利,其虽然提及了垃圾评论的识别方法,但是技术方案与本专利技术不同,本专利技术基于自然语言处理的恶意垃圾评论攻击识别方法将NLP任务与简单的数据分析结合,对潜在的垃圾评论攻击进行识别,从而更全面地保证了对各种方式攻击的识别,更好的保护了平台的评论数据安全与推荐系统的表现。

技术实现思路

[0007]本专利技术的主要目的在于提供一种基于自然语言处理的恶意垃圾评论攻击识别方法,通过对电子商务平台上的评论进行语料库建立,并对其中部分进行人工标识,建立垃圾评论黑名单库。并分别依据基于规则的分类方法以及监督学习算法对语料库中全部语料进行垃圾评论筛选,选择出语料库中的全部垃圾评论;之后结合传统的数据分析,对垃圾评论进行相似度判定,并对高相似度的评论发表设备与发表时间等进行分析,标记出潜在的有恶意攻击可能的垃圾评论,进行相应的后续处理。
[0008]为达到以上目的,本专利技术提供一种基于自然语言处理的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,包括以下步骤:
[0009]步骤S1:建立电子商务平台的全部评论语料库L,L={l
n
|n=1,2,

,M},其中l
n
为第n条评论;
[0010]步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理(包括特殊符号替换、缺项标记等操作,为后续的NLP(自然语言处理)任务做准备);
[0011]步骤S3:将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识,筛选出(人工垃圾评论标识中的)垃圾评论,以生成垃圾评论数据集S,并且对垃圾评论数据集S进行第二处理,以获得最终的垃圾评论数据集Q;
[0012]步骤S4:对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理,判断评论是否存在潜在的恶意攻击企图并且标记(依据上述被标记的恶意垃圾评论数据集P中的相关信息,对恶意垃圾评论防护进行后续工作)。
[0013]作为上述技术方案的进一步优选的技术方案,步骤S3具体实施为以下步骤:
[0014]步骤S3.1:根据人工垃圾评论标识筛选出的垃圾评论数据集S,提取总结垃圾评论的评判特征{F
i
|i=1,2,

,N};
[0015]步骤S3.2:对垃圾评论数据集S进行关键词提取处理,并且将出现率高于阈值频率f的词进行记录,以构建垃圾评论黑名单B;
[0016]步骤S.3:根据上述的评判特征{F
i
|i=1,2,

,N}以及垃圾评论黑名单B,对评论语料库L进行初步的基于规则的垃圾评论选取工作;
[0017]步骤S3.4:在已有标签的评论语料库L中的预设比例评论的基础上,采用监督学习方式(包括朴素贝叶斯、K

means等算法,并结合TF

IDF等关键数据),对评论语料库L进行垃圾评论选取工作;
[0018]步骤S3.5:比较步骤S3.3和步骤S3.4选择出的结果,对争议性结果进行(人工)评定,并且根据评定对垃圾评论黑名单B、阈值频率f以及监督学习中相关参数进行调整,直至垃圾评论选取的表现最优,以获得最终的垃圾评论数据集Q。
[0019]作为上述技术方案的进一步优选的技术方案,步骤S4具体实施为以下步骤:
[0020]步骤S4.1:对垃圾评论数据集Q进行实体关系提取,并且分析每条评论间的相似性(可采用对提取的实体关系中的关键词进行余弦相似度计算),公式为:
[0021][0022]步骤S4.2:对相似度高于预设值的评论的发表设备进行比对,若设备相同,则进行标记;
[0023]步骤S4.3:对相似度高于预设值的评论之间的发表时间间隔进行分析,若存在规律,则进行标记;
[0024]步骤S4.4:得到被标记的恶意垃圾评论数据集P。
[0025]作为上述技术方案的进一步优选的技术方案,将评论语料库L中的预设比例(优选为1/4)的评论进行人工垃圾评论标识,选择标准包括:有明显的无意义重复内容、借助谐音特殊符号等进行遮掩的广告和与产品明显不相关的评论(更多标准可按实际评论进行补充)。
[0026]为达到以上目的,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。、
[0027]为达到以上目的,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述一种基于自然语言处理的恶意垃圾评论攻击识别方法的步骤。
附图说明
[0028]图1是本专利技术的一种基于自然语言处理的恶意垃圾评论攻击识别方法的示意图。
具体实施方式
[0029]以下描述用于揭露本专利技术以使本领域技术人员能够实现本专利技术。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本专利技术的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本专利技术的精神和范围的其他技术方案。
[0030]在本专利技术的优选实施例中,本领域技术人员应注意,本专利技术所涉及的电子设备、监督学习方式等可被视为现有技术。
[0031]优选实施例。
[0032]本专利技术公开了一种基于自然语言处理(Natural Language Processing,NLP)的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,包括以下步骤:
[0033]步骤S1:建立电子商务平台的全部评论语料库L,L={l
n
|n=1,2,

,M},其中l
n
为第n条评论;
[0034]步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理(包括特殊符号替换、缺项标记等操作,为后续的N本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的恶意垃圾评论攻击识别方法,用于识别恶意垃圾评论攻击,其特征在于,包括以下步骤:步骤S1:建立电子商务平台的全部评论语料库L,L={l
n
|n=1,2,

,M},其中l
n
为第n条评论;步骤S2:对建立的评论语料库L中的内容进行数据清洗与第一处理;步骤S3:将评论语料库L中的预设比例的评论进行人工垃圾评论标识,筛选出垃圾评论,以生成垃圾评论数据集S,并且对垃圾评论数据集S进行第二处理,以获得最终的垃圾评论数据集Q;步骤S4:对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理,判断评论是否存在潜在的恶意攻击企图并且标记。2.根据权利要求1所述的一种基于自然语言处理的恶意垃圾评论攻击识别方法,其特征在于,步骤S3具体实施为以下步骤:步骤S3.1:根据人工垃圾评论标识筛选出的垃圾评论数据集S,提取总结垃圾评论的评判特征{F
i
|i=1,2,

,N};步骤S3.2:对垃圾评论数据集S进行关键词提取处理,并且将出现率高于阈值频率f的词进行记录,以构建垃圾评论黑名单B;步骤S.3:根据上述的评判特征{F
i
|i=1,2,

,N}以及垃圾评论黑名单B,对评论语料库L进行初步的基于规则的垃圾评论选取工作;步骤S3.4:在已有标签的评论语料库L中的预设比例评论的基础上,采用监...

【专利技术属性】
技术研发人员:陈双喜张厚军刘会张雪楠林长浩
申请(专利权)人:嘉兴职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1