一种校验敏感词及匹配规则的平台及方法技术

技术编号:34627146 阅读:29 留言:0更新日期:2022-08-20 09:35
本公开提供了一种校验敏感词及匹配规则的平台及方法,涉及计算机领域,尤其涉及大数据技术领域。具体实现方案为:接收敏感词配置信息,敏感词配置信息包括:预先设定的敏感词和针对敏感词的匹配规则;获取抽样本文数据,并基于敏感词和匹配规则,对抽样文本数据进行匹配,得到与任一敏感词及该敏感词的匹配规则相匹配的目标文本;展示目标文本,以及每一目标文本相关联的敏感词和匹配规则;目标文本用于校验相关联的敏感词和/或匹配规则是否准确。显著减少了校验敏感词及匹配规则的耗时,加快了最终决策及时性,减少部署敏感词及匹配规则的周期,提高敏感词及匹配规则的落地时效性。性。性。

【技术实现步骤摘要】
一种校验敏感词及匹配规则的平台及方法


[0001]本公开涉及计算机
,尤其涉及大数据


技术介绍

[0002]敏感词匹配是指对互联网上用户昵称、用户发布的言论、文章中含有的敏感词进行识别。
[0003]敏感词经过互联网的传播和扩散,会影响社会的稳定和用户的使用,因此,合理匹配敏感词具有重要的意义。

技术实现思路

[0004]本公开提供了一种校验敏感词及匹配规则的平台及方法。
[0005]根据本公开的第一方面,提供了一种校验敏感词及匹配规则的平台,包括:
[0006]信息配置模块,用于接收敏感词配置信息,所述敏感词配置信息包括:预先设定的敏感词和针对所述敏感词的匹配规则;
[0007]抽样试算模块,用于获取抽样文本数据,并基于所述敏感词和所述敏感词的匹配规则,对所述抽样文本数据进行匹配,得到与任一所述敏感词及该敏感词的匹配规则相匹配的目标文本;
[0008]结果展示模块,用于展示所述目标文本,以及每一所述目标文本相关联的敏感词和匹配规则;所述目标文本用于校验相关联的敏感词和/或匹配规则是否准确。
[0009]根据本公开的第二方面,提供了一种校验敏感词及匹配规则的方法,应用于校验敏感词及匹配规则的平台,所述方法包括:
[0010]接收敏感词配置信息,所述敏感词配置信息包括:预先设定的敏感词和针对所述敏感词的匹配规则;
[0011]获取抽样本文数据,并基于所述敏感词和所述匹配规则,对所述抽样文本数据进行匹配,得到目标文本;所述目标文本与至少一个敏感词及该敏感词的匹配规则相匹配;
[0012]展示所述目标文本,以及每一所述目标文本相关联的敏感词和匹配规则;所述目标文本用于校验相关联的敏感词和/或匹配规则是否准确。
[0013]根据本公开的第三方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行校验敏感词及匹配规则的方法。
[0017]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行校验敏感词及匹配规则的方法。
[0018]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现校验敏感词及匹配规则的方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是相关技术中敏感词及匹配规则实施部署前的校验流程的一种示意图;
[0022]图2是本公开实施例提供的校验敏感词及匹配规则的平台的一种结构示意图;
[0023]图3为本公开实施例提供的敏感词配置页面的一种示意图;
[0024]图4是本公开实施例提供的校验敏感词及匹配规则的平台的另一种结构示意图;
[0025]图5是本公开实施例提供的校验敏感词及匹配规则的方法的一种流程示意图;
[0026]图6为本公开实施例提供的电子设备的框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]敏感词匹配是指对互联网上用户昵称、言论、文章等中含有的敏感词进行识别。
[0029]敏感词经过互联网的传播和扩散,会影响社会的稳定和用户的使用,因此,合理匹配敏感词具有重要的意义。
[0030]现有技术中,对于新制定的敏感词及匹配规则,落地时间较长,时效性较差。具体的,参见图1,图1是相关技术中敏感词及匹配规则实施部署前的校验流程的一种示意图,参见图1,相关技术中,产品人员每次需要对用户名、文章内容、用户言论等进行敏感词过滤匹配时,首先设定待匹配的敏感词和匹配规则,给到数据研发人员。随后数据研发人员根据匹配规则开发代码,从而对大规模的数据流进行匹配,得到跑数结果,也就是敏感词匹配结果。这个过程包含的测试、开发、跑数过程大概需要2

3天才能完成。
[0031]数据研发人员将跑数结果交付给产品人员后,产品人员可能发现给到的敏感词和/或匹配规则存在问题,导致无法达到预期的敏感词过滤效果,又会重新向数据研发人员提交新的敏感词和匹配规则,如此反复。
[0032]举例来讲,产品人员一次性设定的关键词和匹配规则较多,很可能出现关键词缺失部分字、匹配规则设定错误等情况。
[0033]产品人员在看到匹配结果后,意识到关键词和/或匹配规则设定错误,这种情况下,就需要重新提交关键词和/或匹配规则。
[0034]整个过程费时费力,通常需要1

2周才能实现校验,随后大规模部署至服务器,导致部署敏感词及匹配规则的时效性较差,无法应对快速的风控拦截需求和紧急的政策合规调整。
[0035]为了解决上述技术问题,本公开提供了一种校验敏感词及匹配规则的平台及方法。
[0036]参见图2,图2是本公开实施例提供的校验敏感词及匹配规则的平台的一种结构示
意图。如图2所示,包括信息配置模块、抽样试算模块、结果展示模块。
[0037]本公开实施例提供的平台可以直接面向产品人员,如果产品人员需要部署新的敏感词和匹配规则,在部署之前,可以通过本公开提供的平台对敏感词及匹配规则进行校验。
[0038]平台中的信息配置模块,用于接收敏感词配置信息,敏感词配置信息包括:预先设定的敏感词和针对敏感词的匹配规则。
[0039]具体的,产品人员可以在平台输入预先设定的敏感词和针对敏感词的匹配规则。其中,敏感词可以是多个,针对不同敏感词的匹配规则也可以是不同的。
[0040]参见图3,图3为本公开实施例提供的敏感词配置页面的一种示意图,如图3所示,产品人员可以在平台上提交多个敏感词及对应的敏感词匹配规则,图3示出了几个敏感词和敏感词的匹配规则。
[0041]平台还包括抽样试算模块,该模块内置有预先编写好的针对不同匹配规则的代码,能够根据敏感词和匹配规则,对抽样文本数据进行匹配。
[0042]其中,抽样文本数据可以从在线文本数据中抽样得到,在线文本数据的数据量是非常大的,如果直接针对在线文本数据进行敏感词匹配,会耗费大量的计算资源且完成匹配的时间较长。
[0043]本公开实施例中,在校验敏感词及匹配规则的过程中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种校验敏感词及匹配规则的平台,包括:信息配置模块,用于接收敏感词配置信息,所述敏感词配置信息包括:预先设定的敏感词和针对所述敏感词的匹配规则;抽样试算模块,用于获取抽样文本数据,并基于所述敏感词和所述敏感词的匹配规则,对所述抽样文本数据进行匹配,得到与任一所述敏感词及该敏感词的匹配规则相匹配的目标文本;结果展示模块,用于展示所述目标文本,以及每一所述目标文本相关联的敏感词和匹配规则;所述目标文本用于校验相关联的敏感词和/或匹配规则是否准确。2.根据权利要求1所述的平台,其中,当所述目标文本表征所述敏感词和/或所述匹配规则出错时,所述信息配置模块,还用于接收针对所述敏感词和/或所述匹配规则的修改指令,得到更新后的敏感词和/或匹配规则;其中,所述修改指令是基于所述目标文本生成的;所述抽样试算模块,还用于基于所述更新后的敏感词和/或匹配规则,对所述抽样文本数据进行匹配,得到更新后的目标文本;所述结果展示模块,还用于展示所述更新后的目标文本,所述更新后的目标文本用于校验所述更新后的敏感词和/或匹配规则是否准确。3.根据权利要求1所述的平台,其中,所述匹配规则包括以下的一种或多种:严格匹配、模糊匹配、拼音匹配、多词匹配、包含/不包含匹配;试算抽样试算模块,包括以下的一种或多种模块:严格匹配模块、模糊匹配模块、拼音匹配模块、多词匹配模块、包含/不包含匹配模块。4.根据权利要求1所述的平台,还包括:配置记录模块,用于保存针对所述敏感词和/或所述匹配规则的历史修改记录。5.一种校验敏感词及匹配规则的方法,所述方法包括:接收敏感词配置信息,所述敏感词配置信息包括:预先设定的敏感词和针对所述敏感词的匹配规则;获取抽样文本数据,并基于所述敏感词...

【专利技术属性】
技术研发人员:刘峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1