本申请提供了一种违规房间名识别方法、系统,包括:对原始房间名进行预处理,得到待识别房间名;利用规则库对待识别房间名进行识别,得到第一识别结果;利用违规识别模型对待识别房间名进行识别,得到第二识别结果;根据预设输出策略从第一识别结果和第二识别结果中确定原始房间名的输出识别结果,输出识别结果用于反映原始房间名是否违规。在规则库的方式可涵盖一般违规情况的基础上,发挥违规识别模型具有泛化能力的特点,弥补规则库中匹配规则不足的缺点,以提高对房间名违规识别的准确度。以提高对房间名违规识别的准确度。以提高对房间名违规识别的准确度。
【技术实现步骤摘要】
违规房间名识别方法和系统
[0001]本申请涉及文本审核
,尤其涉及一种违规房间名识别方法和系统。
技术介绍
[0002]随时网络通信技术的进步和宽带网络的提速,网络社交应用在各个行业得到了越来越广泛的开展。例如,网络直播、网络语音室等等,可以极大地拉近用户之间的距离,并达到最好的交流效果,而且成本相对最低,所以得到了各行业用户的普遍欢迎。
[0003]而各类网络社交应用往往需要创建虚拟房间来吸引用户,虚拟房间名可能存在一些违规词语,为了保持正常用户的使用体验,需要在向用户推送虚拟房间时对房间名进行审核。传统技术中房间名审核的方案存在识别准确度不高的问题。
技术实现思路
[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中识别准确度不高的技术缺陷。
[0005]第一方面,本申请实施例提供了一种违规房间名识别方法,包括:对原始房间名进行预处理,得到待识别房间名;利用规则库对待识别房间名进行识别,得到第一识别结果;利用违规识别模型对待识别房间名进行识别,得到第二识别结果;根据预设输出策略从第一识别结果和第二识别结果中确定原始房间名的输出识别结果,输出识别结果用于反映原始房间名是否违规。
[0006]在其中一个实施例中,违规识别模型的训练过程包括:利用规则库对原始文本集中各原始文本进行识别,得到各原始文本的第三识别结果;基于各第三识别结果对各原始本文进行标注,得到训练文本集;基于训练文本集对初始违规识别模型进行训练,得到违规识别模型。
[0007]在其中一个实施例中,初始违规识别模型的数量为多个,且各初始违规识别模型基于不同算法;基于训练文本集对初始违规识别模型进行训练,得到违规识别模型包括:对各初始违规识别模型分别进行训练,得到多个待选违规识别模型;利用测试文本集对各待选违规识别模型的识别效果进行测试;选择识别效果最好的待选违规识别模型作为违规识别模型。
[0008]在其中一个实施例中,规则库可更新,方法还包括:在规则库更新后,利用更新后的规则库得到新的训练文本集;基于新的训练文本集对初始违规识别模型进行训练,以更新违规识别模型。
[0009]在其中一个实施例中,规则库中包括多个敏感词和与各敏感词对应的变种词;利用规则库对待识别房间名进行识别,得到第一识别结果包括:判断待识别房间名中是否包含规则库中的敏感词或变种词;在待识别房间名中包含规则库中的敏感词或变种词的情况下,识别待识别房间名为违规;在待识别房间名中不包含规则库中的敏感词或变种词的情况下,识别待识别房间名为正常。
[0010]在其中一个实施例中,在待识别房间名中包含规则库中的敏感词或变种词的情况下,识别待识别房间名为违规包括:在待识别房间名中包含规则库中的敏感词或变种词的情况下,判断待识别房间名中是否包含白名单规则库中的白名单词;在待识别房间名中包含规则库中的敏感词或变种词,且又包含白名单规则库中的白名单词的情况下,识别待识别房间名为正常;在待识别房间名中包含规则库中的敏感词或变种词,且不包含白名单规则库中的白名单词的情况下,识别待识别房间名为违规。
[0011]在其中一个实施例中,变种词与对应的敏感词之间的关系为以下至少一种:变种词与对应敏感词的字形相近,变种词与对应敏感词的拼音相同,变种词与对应敏感词的拼音相近,变种词与对应所述敏感词的拼音首字母组合相同,变种词为对应敏感词在不同语言的翻译结果或翻译结果的缩写,变种词与对应敏感词拆字后的形态相同,变种词与对应敏感词拆字后的形态相近。
[0012]在其中一个实施例中,判断待识别房间名中是否包含规则库中的敏感词或变种词包括:计算待识别房间名中的词组与规则库中的敏感词或变种词的相似度;在词组的相似度大于预设相似度的情况下,判定待识别房间名中包含规则库中的敏感词或变种词,否则,判定待识别房间名中不包含规则库中的敏感词或变种词。
[0013]在其中一个实施例中,在判定待识别房间名中包含规则库中的敏感词或变种词后,方法还包括:从词组中确定目标词组,目标词组为相似度大于预设相似度且不存在于规则库中的词组;校验目标词组是否与敏感词匹配;将与敏感词匹配的目标词加入规则库中。
[0014]在其中一个实施例中,预处理包括格式转换、拆字处理、拼字处理、拼音转换中的至少一项。
[0015]第二方面,本申请实施例提供了一种违规房间名识别系统,包括:预处理模块,用于对原始房间名进行预处理,得到待识别房间名;规则识别模块,用于利用规则库对待识别房间名进行识别,得到第一识别结果;模型识别模块,用于利用违规识别模型对待识别房间名进行识别,得到第二识别结果;结果输出模块,用于根据预设输出策略从第一识别结果和第二识别结果中确定原始房间名的输出识别结果,输出识别结果用于反映原始房间名是否违规。
[0016]从以上技术方案可以看出,本申请实施例具有以下优点:
[0017]利用规则库进行敏感词匹配得到第一识别结果,利用违规识别模型进行违规预测得到第二识别结果,通过预设输出策略综合第一识别结果和第二识别结果得到输出识别结果,以结合两种方式的优点。在规则库的方式可涵盖一般违规情况的基础上,发挥违规识别模型具有泛化能力的特点,弥补规则库中匹配规则不足的缺点,以提高对房间名违规识别的准确度。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0019]图1为本申请一个实施例提供的违规房间名识别方法的流程示意图;
[0020]图2为本申请一个实施例中构建违规识别模型的流程示意图;
[0021]图3为本申请另一个实施例中构建违规识别模型的流程示意图;
[0022]图4为本申请一个实施例利用规则库对待识别房间名进行识别的流程示意图;
[0023]图5为本申请一个实施例中违规房间名识别系统的模块结构图。
具体实施方式
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]本申请实施例提供了一种违规房间名识别方法,请参阅图1,包括步骤 S102至步骤S108。
[0026]S102,对原始房间名进行预处理,得到待识别房间名。
[0027]可以理解,本申请中的房间包括各类社交应用上的虚拟房间,包括直播间、聊天室、语音室等等,虚拟房间的功能也不做限定,可以用来进行语音聊天、对局游戏直播、对局游戏组队、唱歌等等。而不同用户在进行房间名设定时具有不同习惯,虽然展示形式不同,但是可能具有相同的含义。为了加快识本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种违规房间名识别方法,其特征在于,包括:对原始房间名进行预处理,得到待识别房间名;利用规则库对所述待识别房间名进行识别,得到第一识别结果;利用违规识别模型对所述待识别房间名进行识别,得到第二识别结果;根据预设输出策略从所述第一识别结果和所述第二识别结果中确定所述原始房间名的输出识别结果,所述输出识别结果用于反映所述原始房间名是否违规。2.根据权利要求1所述的方法,其特征在于,所述违规识别模型的训练过程包括:利用所述规则库对原始文本集中各原始文本进行识别,得到各所述原始文本的第三识别结果;基于各所述第三识别结果对各所述原始本文进行标注,得到训练文本集;基于所述训练文本集对初始违规识别模型进行训练,得到所述违规识别模型。3.根据权利要求2所述的方法,其特征在于,所述初始违规识别模型的数量为多个,且各所述初始违规识别模型基于不同算法;所述基于所述训练文本集对初始违规识别模型进行训练,得到所述违规识别模型包括:对各所述初始违规识别模型分别进行训练,得到多个待选违规识别模型;利用测试文本集对各所述待选违规识别模型的识别效果进行测试;选择识别效果最好的所述待选违规识别模型作为所述违规识别模型。4.根据权利要求2所述的方法,其特征在于,所述规则库可更新,所述方法还包括:在所述规则库更新后,利用更新后的所述规则库得到新的所述训练文本集;基于新的所述训练文本集对所述初始违规识别模型进行训练,以更新所述违规识别模型。5.根据权利要求1所述的方法,其特征在于,所述规则库中包括多个敏感词和与各所述敏感词对应的变种词;所述利用规则库对所述待识别房间名进行识别,得到第一识别结果包括:判断所述待识别房间名中是否包含所述规则库中的所述敏感词或所述变种词;在所述待识别房间名中包含所述规则库中的所述敏感词或所述变种词的情况下,识别所述待识别房间名为违规;在所述待识别房间名中不包含所述规则库中的所述敏感词或所述变种词的情况下,识别所述待识别房间名为正常。6.根据权利要求5所述的方法,其特征在于,所述在所述待识别房间名中包含所述规则库中的所述敏感词或所述变种词的情况下,识别所述待识别房间名为违规包括:在所述待识别房间名中包含所述规则库中的所述敏感词或所述变种词的情况下,判断所述待识别房间名中是否包含白名单规则库中的白名单词;在所述待识别房间名中...
【专利技术属性】
技术研发人员:张政统,马金龙,吴文亮,邓其春,王伟喆,黎子骏,曾锐鸿,盘子圣,焦南凯,兰翔,徐志坚,谢睿,陈光尧,
申请(专利权)人:广州趣丸网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。