不当评论检测方法、装置、设备及介质制造方法及图纸

技术编号：28121345 阅读：32 留言：0更新日期：2021-04-19 11:28

本发明专利技术公开了一种不当评论检测方法、装置、电子设备及计算机存储介质，涉及信息处理技术领域，旨在解决不当评论检测存在的效率低和准确率低的问题。该方法包含以下步骤：定期获取评论数据，通过朴素贝叶斯算法，分别计算评论数据中各分词被检测为不当评论的概率进行存储；接收目标评论内容，查询该目标评论内容的各分词对应的概率；根据各分词对应的概率，计算复合概率或平均概率；若复合概率大于或等于预设阈值，或平均概率大于或等于预设阈值，则将目标评论内容判定为不当评论。则将目标评论内容判定为不当评论。则将目标评论内容判定为不当评论。

全部详细技术资料下载

【技术实现步骤摘要】
不当评论检测方法、装置、设备及介质

[0001]本专利技术涉及信息处理
，尤其涉及一种不当评论检测方法、装置、设备及介质。

技术介绍

[0002]发表评论是许多互联网应用都具备的功能，比如在文章下发表评论，是用户抒发感情或表达自己的看法的重要途径。
[0003]但由于网络的开放性，人们可以在网站上任意书写评论。而目前人工审核评论的工作量大，所耗时间长，使得对不当评论的检测效率低下，不能及时、准确地对不当评论的发表进行限制。
[0004]针对目前不当评论检测存在的效率低和准确率低的问题，目前尚未提出有效的解决方法。

技术实现思路

[0005]本专利技术实施例提供了一种不当评论检测方法、装置、设备及介质，以至少解决不当评论检测存在的效率低和准确率低的问题。
[0006]第一方面，本专利技术实施例提供了一种不当评论检测方法，包括以下步骤：
[0007]定期获取评论数据加入训练集，其中，所述评论数据包括若干条已预先标注类别的评论内容，所述类别包括不当评论和正常评论两种；
[0008]对所述训练集中的评论内容进行分词处理，通过朴素贝叶斯算法，分别计算各分词的概率，其中所述概率为分词被检测为不当评论的概率；
[0009]将所述各分词以及所述各分词的概率关联存储至数据库；
[0010]接收目标评论内容，将所述目标评论内容进行分词处理，得到分词集合；
[0011]从所述数据库中查询所述分词集合中各分词对应的概率；
[0012...

【技术保护点】

【技术特征摘要】
1.一种不当评论检测方法，其特征在于，包括以下步骤：定期获取评论数据加入训练集，其中，所述评论数据包括若干条已预先标注类别的评论内容，所述类别包括不当评论和正常评论两种；对所述训练集中的评论内容进行分词处理，通过朴素贝叶斯算法，分别计算各分词的概率，其中所述概率为分词被检测为不当评论的概率；将所述各分词以及所述各分词的概率关联存储至数据库；接收目标评论内容，将所述目标评论内容进行分词处理，得到分词集合；从所述数据库中查询所述分词集合中各分词对应的概率；根据所述分词集合中各分词对应的概率，计算所述分词集合的复合概率或平均概率；将所述复合概率或所述平均概率与预设阈值进行比对，若所述复合概率大于或等于所述预设阈值或所述平均概率大于或等于所述预设阈值，则将所述目标评论内容判定为不当评论。2.如权利要求1所述的不当评论检测方法，其特征在于，所述通过朴素贝叶斯算法，分别计算各分词的概率，包括：通过公式p＝(p1
×
p3)/(p1
×
p3+p2
×
p4)，分别计算各分词被检测为不当评论的概率；其中P表示分词被检测为不当评论的概率，p1表示所述训练集中不当评论的基础概率，p2代表所述训练集中正常评论的基础概率，p3代表所述训练集中不当评论的条件概率，p4代表所述训练集中正常评论的条件概率。3.如权利要求1所述的不当评论检测方法，其特征在于，所述计算所述分词集合的复合概率，包括：通过以下公式计算所述分词集合的复合概率：其中，P(w1)，P(w1)
…
P(wn)分别表示所述分词集合中各分词对应的概率。4.如权利要求1所述的不当评论检测方法，其特征在于，所述计算所述分词集合的平均概率，包括：将所述分词集合中各分词对应的概率求平均值，得到所述分词集合的平均概率。5.如权利要求1所述的不当评论检测方法，其特征在于，所述将所述目标评论内容判定为不当评论之后，包括...

【专利技术属性】
技术研发人员：王伟松，张聪，
申请(专利权)人：浙江学海教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人