本发明专利技术公开了一种不当评论检测方法、装置、电子设备及计算机存储介质,涉及信息处理技术领域,旨在解决不当评论检测存在的效率低和准确率低的问题。该方法包含以下步骤:定期获取评论数据,通过朴素贝叶斯算法,分别计算评论数据中各分词被检测为不当评论的概率进行存储;接收目标评论内容,查询该目标评论内容的各分词对应的概率;根据各分词对应的概率,计算复合概率或平均概率;若复合概率大于或等于预设阈值,或平均概率大于或等于预设阈值,则将目标评论内容判定为不当评论。则将目标评论内容判定为不当评论。则将目标评论内容判定为不当评论。
【技术实现步骤摘要】
不当评论检测方法、装置、设备及介质
[0001]本专利技术涉及信息处理
,尤其涉及一种不当评论检测方法、装置、 设备及介质。
技术介绍
[0002]发表评论是许多互联网应用都具备的功能,比如在文章下发表评论,是用 户抒发感情或表达自己的看法的重要途径。
[0003]但由于网络的开放性,人们可以在网站上任意书写评论。而目前人工审核 评论的工作量大,所耗时间长,使得对不当评论的检测效率低下,不能及时、 准确地对不当评论的发表进行限制。
[0004]针对目前不当评论检测存在的效率低和准确率低的问题,目前尚未提出有 效的解决方法。
技术实现思路
[0005]本专利技术实施例提供了一种不当评论检测方法、装置、设备及介质,以至 少解决不当评论检测存在的效率低和准确率低的问题。
[0006]第一方面,本专利技术实施例提供了一种不当评论检测方法,包括以下步骤:
[0007]定期获取评论数据加入训练集,其中,所述评论数据包括若干条已预先 标注类别的评论内容,所述类别包括不当评论和正常评论两种;
[0008]对所述训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分别 计算各分词的概率,其中所述概率为分词被检测为不当评论的概率;
[0009]将所述各分词以及所述各分词的概率关联存储至数据库;
[0010]接收目标评论内容,将所述目标评论内容进行分词处理,得到分词集合;
[0011]从所述数据库中查询所述分词集合中各分词对应的概率;
[0012]根据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率 或平均概率;
[0013]将所述复合概率或所述平均概率与预设阈值进行比对,将所述复合概率 或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预设 阈值,或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容判 定为不当评论。
[0014]在其中一些实施例中,所述通过朴素贝叶斯算法,分别计算各分词的概 率,包括:
[0015]通过公式p=(p1
×
p3)/(p1
×
p3+p2
×
p4),分别计算各分词被检测为不当评论 的概率;其中P表示分词被检测为不当评论的概率,p1表示所述训练集中不 当评论的基础概率,p2代表所述训练集中正常评论的基础概率,p3代表所述 训练集中不当评论的条件概率,p4代表所述训练集中正常评论的条件概率。
[0016]在其中一些实施例中,所述计算所述分词集合的复合概率,包括:
[0017]通过以下公式计算所述分词集合的复合概率:
[0018][0019]其中,P(w1),P(w1)
…
P(wn)分别表示所述分词集合中各分词对应的 概率。
[0020]在其中一些实施例中,所述计算所述分词集合的平均概率,包括:
[0021]将所述分词集合中各分词对应的概率求平均值,得到所述分词集合的平 均概率。
[0022]在其中一些实施例中,所述将所述目标评论内容判定为不当评论之后, 包括:
[0023]检查所述评论内容是否判定正确;
[0024]若检查到所述评论内容出现漏判,则将所述评论内容加入所述训练集, 重新计算各分词被检测为不当评论的概率并存储;
[0025]若检查到所述评论内容出现误判,则从所述数据库中删除所述分词集合 中的各分词对应的概率。
[0026]在其中一些实施例中,所述将将所述各分词以及所述各分词的概率关联 存储至数据库,还包括:
[0027]将预先为特定分词设置的干预概率值进行存储。
[0028]在其中一些实施例中,所述从所述数据库中查询所述分词集合中各分词 对应的概率,包括:
[0029]根据赋值规则,为未查询对应概率的分词指定概率值。
[0030]第二方面,本专利技术实施例提供了一种不当评论检测装置,包括:
[0031]数据获取模块,用于定期获取评论数据加入训练集,其中,所述评论数 据包括若干条已预先标注类别的评论内容,所述类别包括不当评论和正常评 论两种;
[0032]训练模块,用于对所述训练集中的评论内容进行分词处理,通过朴素贝 叶斯算法,分别计算各分词的概率,其中所述概率为分词被检测为不当评论 的概率,将所述各分词以及所述各分词的概率关联存储至数据库;
[0033]检测模块,用于接收目标评论内容,将所述目标评论内容进行分词处理, 得到分词集合,从所述数据库中查询所述分词集合中各分词对应的概率,根 据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率或平均 概率,将所述复合概率或所述平均概率与预设阈值进行比对,将所述复合概 率或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预 设阈值,或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容 判定为不当评论。
[0034]第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器 以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理 器执行所述计算机程序时实现如上述第一方面所述的不当评论检测方法。
[0035]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有 计算机程序,该程序被处理器执行时实现如上述第一方面所述的不当评论检 测方法。
[0036]相比于现有技术,本专利技术实施例提供一种不当评论检测方法、装置、设 备及介质,通过定期获取评论数据以不断增加训练集的数据量,使得计算得 到的各分词被检测为不当评论的概率的准确性增加。该计算得到的各分词被 检测为不当评论的概率,可以直接用于检测评论内容是否为不当评论,从而 提高使得不当评论的检测效率和准确率。
[0037]本专利技术的一个或多个实施例的细节在以下附图和描述中提出,以使本发 明的其
他特征、目的和优点更加简明易懂。
附图说明
[0038]此处所说明的附图用来提供对本申请的进一步理解,构成本专利技术的一部分, 本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限 定。在附图中:
[0039]图1是本专利技术不当评论检测方法的流程图;
[0040]图2是本专利技术实施例的不当评论检测装置的结构框图;
[0041]图3是本专利技术实施例的电子设备的结构框图。
具体实施方式
[0042]为了使本申请的目的、技术方案更加清楚明白,以下结合附图及实施例, 对本专利技术的进行描述和说明。应当理解,此处所描述的具体实施例仅仅用于 解释本专利技术,并不用于限定本专利技术。基于本专利技术提供的实施例,本领域普通 技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于 本申请保护的范围。
[0043]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对 于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据 这些附图将本申请应用于其他类似情景。此外,还可以理解的是,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种不当评论检测方法,其特征在于,包括以下步骤:定期获取评论数据加入训练集,其中,所述评论数据包括若干条已预先标注类别的评论内容,所述类别包括不当评论和正常评论两种;对所述训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分别计算各分词的概率,其中所述概率为分词被检测为不当评论的概率;将所述各分词以及所述各分词的概率关联存储至数据库;接收目标评论内容,将所述目标评论内容进行分词处理,得到分词集合;从所述数据库中查询所述分词集合中各分词对应的概率;根据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率或平均概率;将所述复合概率或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预设阈值或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容判定为不当评论。2.如权利要求1所述的不当评论检测方法,其特征在于,所述通过朴素贝叶斯算法,分别计算各分词的概率,包括:通过公式p=(p1
×
p3)/(p1
×
p3+p2
×
p4),分别计算各分词被检测为不当评论的概率;其中P表示分词被检测为不当评论的概率,p1表示所述训练集中不当评论的基础概率,p2代表所述训练集中正常评论的基础概率,p3代表所述训练集中不当评论的条件概率,p4代表所述训练集中正常评论的条件概率。3.如权利要求1所述的不当评论检测方法,其特征在于,所述计算所述分词集合的复合概率,包括:通过以下公式计算所述分词集合的复合概率:其中,P(w1),P(w1)
…
P(wn)分别表示所述分词集合中各分词对应的概率。4.如权利要求1所述的不当评论检测方法,其特征在于,所述计算所述分词集合的平均概率,包括:将所述分词集合中各分词对应的概率求平均值,得到所述分词集合的平均概率。5.如权利要求1所述的不当评论检测方法,其特征在于,所述将所述目标评论内容判定为不当评论之后,包括...
【专利技术属性】
技术研发人员:王伟松,张聪,
申请(专利权)人:浙江学海教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。