一种基于自然语言处理的恶意垃圾评论攻击识别方法技术

技术编号：29292873 阅读：20 留言：0更新日期：2021-07-17 00:37

本发明专利技术公开了一种基于自然语言处理的恶意垃圾评论攻击识别方法，用于识别恶意垃圾评论攻击，包括步骤S1：建立电子商务平台的全部评论语料库L，L＝{l

A malicious spam comment attack recognition method based on natural language processing

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的恶意垃圾评论攻击识别方法

[0001]本专利技术属于网络安全
，具体涉及一种基于自然语言处理的恶意垃圾评论攻击识别方法。

技术介绍

[0002]现有的恶意攻击识别多为从纯数据(如日志)中进行分析，根据其记录及访问行为的规律性和相关特征进行识别，但这种方式可能难以识别电子商务评论中的一些以引流、广告等为目的的恶意垃圾评论攻击行为，直接或间接导致其对平台推荐系统的影响与攻击，容易使得平台的评论数据遭到污染，同时也会有潜在的更高危的攻击威胁。
[0003]公开号为：CN109344388A，主题名称为一种垃圾评论识别方法、装置及计算机可读存储介质的专利技术专利，其技术方案公开了“获取待识别评论文本信息；
[0004]将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；
[0005]根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论”。
[0006]以上述专利技术专利，其虽然提及了垃圾评论的识别方法，但是技术方案与本专利技术不同，本专利技术基于自然语言处理的恶意垃圾评论攻击识别方法将NLP任务与简单的数据分析结合，对潜在的垃圾评论攻击进行识别，从而更全面地保证了对各种方式攻击的识别，更好的保护了平台的评论数据安全与推荐系统的表现。

技术实现思路

[0007]本专利技术的主要目的在于提供一种基于自然语言处理的恶意垃圾评论攻击识别方法，通过对电子商务平台上的评论进行语料库建立，并对其中部分进...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的恶意垃圾评论攻击识别方法，用于识别恶意垃圾评论攻击，其特征在于，包括以下步骤：步骤S1：建立电子商务平台的全部评论语料库L，L＝{l
n
|n＝1,2,
…
,M},其中l
n
为第n条评论；步骤S2：对建立的评论语料库L中的内容进行数据清洗与第一处理；步骤S3：将评论语料库L中的预设比例的评论进行人工垃圾评论标识，筛选出垃圾评论，以生成垃圾评论数据集S，并且对垃圾评论数据集S进行第二处理，以获得最终的垃圾评论数据集Q；步骤S4：对垃圾评论数据集Q中每条评论进行包括相似性分析、发表设备分析和发表时间分析的第三处理，判断评论是否存在潜在的恶意攻击企图并且标记。2.根据权利要求1所述的一种基于自然语言处理的恶意垃圾评论攻击识别方法，其特征在于，步骤S3具体实施为以下步骤：步骤S3.1：根据人工垃圾评论标识筛选出的垃圾评论数据集S，提取总结垃圾评论的评判特征{F
i
|i＝1,2,
…
，N}；步骤S3.2：对垃圾评论数据集S进行关键词提取处理，并且将出现率高于阈值频率f的词进行记录，以构建垃圾评论黑名单B；步骤S.3：根据上述的评判特征{F
i
|i＝1,2,
…
,N}以及垃圾评论黑名单B，对评论语料库L进行初步的基于规则的垃圾评论选取工作；步骤S3.4：在已有标签的评论语料库L中的预设比例评论的基础上，采用监...

【专利技术属性】
技术研发人员：陈双喜，张厚军，刘会，张雪楠，林长浩，
申请(专利权)人：嘉兴职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人