一种敏感词检测规则的生成方法、生成装置和电子设备制造方法及图纸

技术编号:35836008 阅读:50 留言:0更新日期:2022-12-03 14:06
本申请提供了一种敏感词检测规则的生成方法、生成装置和电子设备,该生成方法包括:获取用于表征敏感词检测需求的至少一个目标敏感词;响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。根据所述生成方法和生成装置,解决了现有技术中创建的敏感词检测规则中的敏感词不全面的问题。全面的问题。全面的问题。

【技术实现步骤摘要】
一种敏感词检测规则的生成方法、生成装置和电子设备


[0001]本申请涉及数据处理领域,具体而言,涉及一种敏感词检测规则的生成方法、生成装置和电子设备。

技术介绍

[0002]随着互联网技术的发展,终端(手机、电脑、平板电脑等)已被大众广泛使用,人们可以使用终端中的各类购物软件进行商品咨询和商品下档等。企业在管理客服与客户的对话中,期望约束客服人员的话术行为,避免在与客户沟通的过程中出现语言违规的情况,导致客户对于服务不满。
[0003]当前,企业的管理人员可以基于一些敏感词在客服与客户的聊天文本中查验出敏感内容,并进行提示或拦截操作。然而,这样的方式仅支持敏感词的绝对匹配,管理人员录入的敏感词需要与聊天文本中的词完全匹配时才能生效,并且在敏感词录入过程中没有辅助功能可扩展同音词或同义词等,因此会遗漏很多场景。并且,由于敏感词的形式多样,导致对敏感词的查验全面性较低,因此,如何生成对聊天文本中敏感词检测更加全面的检测规则,成为亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种敏感词检测规则的生成方法、生成装置和电子设备,通过用户选择的目标敏感词扩展规则对用户输入的目标敏感词进行敏感词扩展,得到每个目标敏感词对应的目标扩展敏感词集合,并利用每个目标敏感词以及每个目标扩展敏感词集合中的每个目标扩展敏感词生成敏感词检测规则,提高了生成的敏感词检测规则中敏感词的全面性。
[0005]第一方面,本申请实施例提供了一种敏感词检测规则的生成方法,所述生成方法包括:
[0006]获取用于表征敏感词检测需求的至少一个目标敏感词;
[0007]响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;
[0008]针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;
[0009]针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;
[0010]基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合
中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。
[0011]进一步的,当所述目标敏感词扩展规则为所述首字母扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
[0012]针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母;
[0013]基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同;
[0014]将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合;
[0015]当所述目标敏感词扩展规则为所述拼音扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
[0016]针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母;
[0017]基于该目标敏感词中每个文字的拼音字母,在所述预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同;
[0018]将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
[0019]进一步的,当所述目标敏感词扩展规则为所述拆字扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
[0020]针对于每个目标敏感词中的每个文字,判断该文字是否为带偏旁部首的汉字;
[0021]若是,将该文字进行偏旁部首的拆分,以得到该文字对应的拆分字;
[0022]使用该文字对应的拆分字替换该目标敏感词中的该文字,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
[0023]当所述目标敏感词扩展规则为所述简繁体扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
[0024]针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,得到第一目标文字;
[0025]若该文字为繁体,将该文字转换为简体,得到所述第一目标文字;
[0026]将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
[0027]当所述目标敏感词扩展规则为所述火星文扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
[0028]针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字;
[0029]将每个第二目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;
[0030]当所述目标敏感词扩展规则为所述多语言扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的至少一个候选扩展敏感词集合,包括:
[0031]针对于每个目标敏感词,基于至少一种预设语言类型对该目标敏感词进行转换,以得到该目标敏感词对应的至少一个多语言敏感词;
[0032]响应于所述用户对于至少一个预设语言类型的选择操作,确定出至少一个目标语言类型,并将至少一个目标语言类型下的多语言敏感词确定为与该目标敏感词具有关联关系的至少一个候选扩展敏感词;
[0033]将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。
[0034]进一步的,当所述目标敏感词扩展规则为所述同义词扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:
[0035]获取至少一个同义词来源类型;
[0036]针对于每个目标敏感词,利用每个同义词来源类型确定该目标敏感词对应的至少一个同义敏感词;
[0037]响应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感词检测规则的生成方法,其特征在于,所述生成方法包括:获取用于表征敏感词检测需求的至少一个目标敏感词;响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;其中,所述预设敏感词扩展规则包括首字母扩展规则、拼音扩展规则、拆字扩展规则、简繁体扩展规则、火星文扩展规则、多语言扩展规则和同义词扩展规则;针对于每个目标敏感词扩展规则,基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合;其中,所述候选扩展敏感词集合中包括至少一个与所述目标敏感词具有关联关系的候选扩展敏感词;针对于每个目标敏感词,响应于所述用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成所述敏感词检测需求对应的敏感词检测规则。2.根据权利要求1所述的生成方法,其特征在于,当所述目标敏感词扩展规则为所述首字母扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母中的首字母;基于该目标敏感词中每个文字的拼音字母中的首字母,在预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母中的首字母与该目标敏感词中每个文字的拼音字母中的首字母相同;将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合;当所述目标敏感词扩展规则为所述拼音扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:针对于每个目标敏感词,确定该目标敏感词中每个文字的拼音字母;基于该目标敏感词中每个文字的拼音字母,在所述预设词汇库中确定出与该目标敏感词具有关联关系的至少一个候选扩展敏感词;其中,所述候选扩展敏感词中每个文字的拼音字母与该目标敏感词中每个文字的拼音字母相同;将所述至少一个候选扩展敏感词进行汇总,确定出与该目标敏感词具有关联关系的候选扩展敏感词集合。3.根据权利要求1所述的生成方法,其特征在于,当所述目标敏感词扩展规则为所述拆字扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:针对于每个目标敏感词中的每个文字,判断该文字是否为带偏旁部首的汉字;若是,将该文字进行偏旁部首的拆分,以得到该文字对应的拆分字;使用该文字对应的拆分字替换该目标敏感词中的该文字,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;当所述目标敏感词扩展规则为所述简繁体扩展规则时,所述基于该目标敏感词扩展规
则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:针对于每个目标敏感词中的每个文字,若该文字为简体,将该文字转换为繁体,得到第一目标文字;若该文字为繁体,将该文字转换为简体,得到所述第一目标文字;将每个第一目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;当所述目标敏感词扩展规则为所述火星文扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的候选扩展敏感词集合,包括:针对于每个目标敏感词中的每个文字,将该文字进行火星文转换,得到第二目标文字;将每个第二目标文字进行组合,确定出与该目标敏感词具有关联关系的候选扩展敏感词和候选扩展敏感词集合;当所述目标敏感词扩展规则为所述多语言扩展规则时,所述基于该目标敏感词扩展规则对每个目标敏感词进行敏感词扩展,以得到与每个目标敏感词具有关联关系的至少一个候选扩展敏感词集合,包括:针对于每个目标敏感词,基于至少一种...

【专利技术属性】
技术研发人员:黄山姗吴明辉李采彧李莹莹
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1