关键词变体的匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:35241661 阅读:14 留言:0更新日期:2022-10-19 09:47
本发明专利技术公开一种关键词变体的匹配方法,包括:合并第一待测文本中的拆分字;合并后的第一待测文本与关键词库中的关键词匹配,若其中不包含与关键词完全匹配的目标词,则获取其中每个目标字的头N笔和末M笔的笔画序列;在关键词库中查找各个目标字对应的疑似匹配关键词,确定各个目标字的匹配标识符;上述匹配标识符组成第1层匹配标识符序列,n赋值为2;计算第n

【技术实现步骤摘要】
关键词变体的匹配方法、装置、设备及存储介质


[0001]本专利技术涉及消息识别领域,具体涉及一种关键词变体的匹配方法、装置、设备及存储介质。

技术介绍

[0002]在现有技术中,关键词变体的匹配主要使用两种方法:方法一是建立形近字表,将关键词变体加入到关键词库,扩展关键词库然后进行精确匹配;方法二是对汉字进行编码或使用点阵图像表示汉字,然后计算两汉字相差的编辑距离,通过设定的编辑距离阈值来判断其是否互为形近字,并结合训练的机器学习模型判断两汉字的相似性,然后判定关键词是否是关键词变体。
[0003]然而,专利技术人在实施过程中发现,现有技术中存在如下缺陷:不法分子常使用拆分字和形近字的方法生成关键词变体来绕过监控系统的关键词筛查。如针对关键词“炸金花”,可将其中的“炸”改写为“火乍”、“咋”、“柞”、“诈”等,还可以将其中的“花”改写为“埖”、“婲”、“椛”等,各种改写方法排列组合后可形成数量繁多的关键词变体。方法一将这些关键词变体配置到关键词库一方面会令关键词库数据量增大、冗余度增加,另一方面增加关键词更新、维护的成本;方法二计算汉字编辑距离或者使用机器学习模型判定形近字的方法难以确定合适的阈值,匹配效率低。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的关键词变体的匹配方法、装置、计算设备及存储介质。
[0005]根据本专利技术的一个方面,提供了一种关键词变体的匹配方法,包括:
[0006]对第一待测文本中的拆分字进行合并,得到第二待测文本;
[0007]将第二待测文本与关键词库中的关键词进行匹配,若第二待测文本中不包含与关键词库中的关键词完全匹配的目标词,则获取第二待测文本中每个目标字的头N笔和末M笔的笔画序列;
[0008]根据各个目标字的笔画序列,在关键词库中查找各个目标字对应的关键词库中的疑似匹配关键词,根据查找结果确定各个目标字的匹配标识符;将各个目标字的匹配标识符组成第1层匹配标识符序列,将n赋值为2;以及
[0009]计算第n

1层匹配标识符序列中相邻的匹配标识符的交集,得到第n层匹配标识符序列,判断第n层匹配标识符序列中的匹配标识符所对应的关键词库中的疑似匹配关键词的字数是否为n,若是,则输出包含疑似匹配关键词的匹配结果;若否,将n赋值为n+1,重复执行本步骤,直至第n层匹配标识符序列不再存在与关键词库中的疑似匹配关键词所对应的标识符。
[0010]可选地,根据各个目标字的笔画序列,在关键词库中查找各个目标字对应的关键词库中的疑似匹配关键词,根据查找结果确定各个目标字的匹配标识符进一步包括:
[0011]根据各个目标字的笔画序列,在关键词库中查找各个目标字对应的关键词库中的疑似形近字;
[0012]针对查找到疑似形近字的目标字,进一步确定包含疑似形近字的至少一个疑似匹配关键词的标识符,作为该目标字的匹配标识符;
[0013]针对未查找到疑似形近字的目标字,确定空标识符作为该目标字的匹配标识符。
[0014]可选地,关键词变体的匹配方法,还包括:
[0015]建立关键词的索引表、关键词包含的每个字的索引表以及关键词包含的每个字的头N笔和末M笔对应的形近字的索引表。
[0016]可选地,对第一待测文本中的拆分字进行合并,得到第二待测文本进一步包括:
[0017]对第一待测文本进行预处理,去除第一待测文本中的非中文字符,得到第三待测文本;
[0018]利用滑动窗口滑过第三待测文本的前m个字,判断滑动窗口内的m个字合并后是否是一新字的笔画,若是,则直接合并m个字,并将滑动窗口向后移一个字;若否,则滑动窗口直接向后移一个字,并重复执行本步骤,直到滑动窗口滑过第三待测文本的最后一个字。
[0019]可选地,直接合并m个字之后,还包括:
[0020]在合并字的后面引入m

1个空格作为填充位,其中,当滑动窗口中存在填充位时,不进行合并操作。
[0021]可选地,m的取值为2和/或3。
[0022]可选地,N和M的取值均为4。
[0023]根据本专利技术的再一方面,提供了一种关键词变体的匹配装置,包括:
[0024]合并模块,适于对第一待测文本中的拆分字进行合并,得到第二待测文本;
[0025]第一匹配模块,适于将第二待测文本与关键词库中的关键词进行匹配,若第二待测文本中不包含与关键词库中的关键词完全匹配的目标词,则获取第二待测文本中每个目标字的头N笔和末M笔的笔画序列;
[0026]查找模块,适于根据各个目标字的笔画序列,在关键词库中查找各个目标字对应的关键词库中的疑似匹配关键词,根据查找结果确定各个目标字的匹配标识符;将各个目标字的匹配标识符组成第1层匹配标识符序列,将n赋值为2;以及
[0027]第二匹配模块,适于计算第n

1层匹配标识符序列中相邻的匹配标识符的交集,得到第n层匹配标识符序列,判断第n层匹配标识符序列中的匹配标识符所对应的关键词库中的疑似匹配关键词的字数是否为n,若是,则输出包含疑似匹配关键词的匹配结果;若否,将n赋值为n+1,重复执行本步骤,直至第n层匹配标识符序列不再存在与关键词库中的疑似匹配关键词所对应的标识符。
[0028]根据本专利技术的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
[0029]存储器用于存放至少一可执行指令,可执行指令使处理器执行上述关键词变体的匹配方法对应的操作。
[0030]根据本专利技术的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行上述关键词变体的匹配方法对应的操作。
[0031]根据本专利技术公开的关键词变体的匹配方法及装置,对第一待测文本中的拆分字进
行合并,得到第二待测文本;将第二待测文本与关键词库中的关键词进行匹配,若第二待测文本中不包含与关键词库中的关键词完全匹配的目标词,则获取第二待测文本中每个目标字的头N笔和末M笔的笔画序列;根据各个目标字的笔画序列,在关键词库中查找各个目标字对应的关键词库中的疑似匹配关键词,根据查找结果确定各个目标字的匹配标识符;将各个目标字的匹配标识符组成第1层匹配标识符序列,将n赋值为2;以及计算第n

1层匹配标识符序列中相邻的匹配标识符的交集,得到第n层匹配标识符序列,判断第n层匹配标识符序列中的匹配标识符所对应的关键词库中的疑似匹配关键词的字数是否为n,若是,则输出包含疑似匹配关键词的匹配结果;若否,将n赋值为n+1,重复执行本步骤,直至第n层匹配标识符序列不再存在与关键词库中的疑似匹配关键词所对应的标识符。采用本方案避免了依次遍历关键词库,极大地提高了关键词变体的匹配效率。
[0032]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词变体的匹配方法,其特征在于,包括:对第一待测文本中的拆分字进行合并,得到第二待测文本;将所述第二待测文本与关键词库中的关键词进行匹配,若所述第二待测文本中不包含与所述关键词库中的关键词完全匹配的目标词,则获取所述第二待测文本中每个目标字的头N笔和末M笔的笔画序列;根据各个目标字的笔画序列,在所述关键词库中查找各个目标字对应的所述关键词库中的疑似匹配关键词,根据查找结果确定各个目标字的匹配标识符;将各个目标字的匹配标识符组成第1层匹配标识符序列,将n赋值为2;以及计算第n

1层匹配标识符序列中相邻的匹配标识符的交集,得到第n层匹配标识符序列,判断第n层匹配标识符序列中的匹配标识符所对应的所述关键词库中的疑似匹配关键词的字数是否为n,若是,则输出包含所述疑似匹配关键词的匹配结果;若否,将n赋值为n+1,重复执行本步骤,直至第n层匹配标识符序列不再存在与所述关键词库中的疑似匹配关键词所对应的标识符。2.根据权利要求1所述的方法,其特征在于,所述根据各个目标字的笔画序列,在所述关键词库中查找各个目标字对应的所述关键词库中的疑似匹配关键词,根据查找结果确定各个目标字的匹配标识符进一步包括:根据各个目标字的笔画序列,在所述关键词库中查找各个目标字对应的所述关键词库中的疑似形近字;针对查找到疑似形近字的目标字,进一步确定包含所述疑似形近字的至少一个疑似匹配关键词的标识符,作为该目标字的匹配标识符;针对未查找到疑似形近字的目标字,确定空标识符作为该目标字的匹配标识符。3.根据权利要求1所述的匹配方法,其特征在于,所述方法还包括:建立关键词的索引表、所述关键词包含的每个字的索引表以及所述关键词包含的每个字的头N笔和末M笔对应的形近字的索引表。4.根据权利要求1所述的匹配方法,其特征在于,所述对第一待测文本中的拆分字进行合并,得到第二待测文本进一步包括:对所述第一待测文本进行预处理,去除所述第一待测文本中的非中文字符,得到第三待测文本;利用滑动窗口滑过所述第三待测文本的前m个字,判断所述滑动窗口内的m个字合并后是否是一新字的笔画,若是,则直接合并所述m个字,并将所述滑动窗口向后移一个字;若否,则...

【专利技术属性】
技术研发人员:杜雪涛叶剑飞戴晶杜刚邵妍王红雨叶艳朱艳云周宇飞张晨
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1