当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于困难样本筛选的即兴委婉语检测方法技术

技术编号:37665380 阅读:11 留言:0更新日期:2023-05-26 04:23
本发明专利技术公开了一种基于困难样本筛选的即兴委婉语检测方法,包括以下步骤:S1、构造目标语料库,包括黑语料、白语料和包含即兴委婉语的语料;S2、对目标语料进行粗分类:训练二分类模型,对目标物料进行推理;S3、细粒度筛选:训练语言模型,对粗分类的推理结果进行推理,判断前topn个是否存在seed词语,若存在则保留,作为推理结果;S4、重训练:使用细粒度筛选的推理结果重新训练语言模型,对粗分类的推理结果进行推理,获得检测结果。本发明专利技术提出了一种三段式的检测框架,使用该检测框架能够在提升即兴委婉语的检测精度的同时,提升对普通委婉语的检测精度。相较现有方法,本发明专利技术普通委婉语的检测精度提升高达0.24。的检测精度提升高达0.24。的检测精度提升高达0.24。

【技术实现步骤摘要】
一种基于困难样本筛选的即兴委婉语检测方法


[0001]本专利技术属于信息安全
,特别涉及一种基于困难样本筛选的即兴委婉语检测方法。

技术介绍

[0002]在暗网,尤其是匿名市场和地下论坛中(如Silkroad,Nude),不法分子在沟通交流时使用委婉语(Euphemism或称Jargon,Slang)来模糊、混淆其交流内容,从而躲避监管和审查。委婉语检测已经成为了追踪网络非法活动的重要技术手段。
[0003]目前,委婉语检测方法主要分为四种:(1)命名实体识别法:此方法把委婉语检测任务定义为命名实体识别任务,首先需要人工标注一个完整的数据集,使用完全监督算法进行序列标注训练,然后在测试集上推理,从而标注出委婉语在句子中的位置;(2)搜索引擎分析法:此方法把委婉语检测任务定义为同义词词表扩充任务,使用现有的主流搜索引擎(比如百度搜索引擎,谷歌搜索引擎等)搜索seed词语(比如已知的委婉语)后,在搜索结果页面的文本中查找出其同义词,并添加入seed词语的同义词此表中;(3)交叉语料词向量分析法:此方法需要用到两组语料,把需要检测出委婉语的语料称为黒语料,把另一个不包含委婉语的语料称为白语料。训练一个词向量模型,分别在黒语料和白语料上做推理,得到词向量,之后求得同一个词语在两组语料上的词向量的余弦相似度。最后给余弦相似度设置一个阈值,超过这个阈值,说明该词语的语义在黒语料和白语料中相差很大,是委婉语;(4)MASK预测排序法:此方法把委婉语检测任务定义为掩码语言模型的MASK预测排序任务。首先定义一些seed词语(比如已知的委婉语或者委婉语实际指代的原词语),接着使用目标语料(需要检测委婉语的语料)按照MLM训练方法微调训练一个语言模型,然后目标语料中的词语打上MASK,用微调完成的语言模型做推理,得到预测token列表。人为设置阈值topn,若seed出现在预测列表的topn个token中,认为这个被打上MASK的词语是委婉语。
[0004]但是上述委婉语检测方法的精度不够,主要是由于忽略了即兴委婉语(即兴委婉语是指在暗网交流中被即兴创造出的新委婉语,在语料中存在的数量非常少)的存在,现有最佳的委婉语检测方案会过滤出现频率比较低词语(常规做法是人为设置一个词频阈值,低于阈值的词语被忽视,不做处理),因此导致对即兴委婉语的检测能力差,精度低。

技术实现思路

[0005]针对上述现有技术存在的问题,本专利技术的目的在于提供了一种基于困难样本筛选的即兴委婉语检测方法,以解决现有委婉语检测方法对即兴委婉语检测失效导致整体检测精度较低的技术问题。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于困难样本筛选的即兴委婉语检测方法,包括以下步骤:
[0008]S1、构造目标语料库,包括黑语料、白语料和包含即兴委婉语的语料;
[0009]S2、对目标语料进行粗分类:
[0010]S3、对粗分类结果进行细粒度筛选;
[0011]S4、对粗分类结果进行重训练,获得即兴委婉语检测结果。
[0012]优选的,步骤S1中,构造目标语料库,具体包括以下步骤:
[0013]首先,在Reddit论坛中选择使用委婉语的主题为blackhat、darknet、drug、silkroad、deepweb、darkmarket的六个子版块,从六个子板块中获取语料,对语料进行短语分割后作为黒语料;
[0014]然后,挑选22个毒品名称作为seed,每一个seed挑选一个委婉语,每个委婉语在黒语料中人工查找20个句子,那么22个seed挑选22个委婉语,22个委婉语对应地在黑语料中人工查找440个句子,将所述440个句子中的委婉语设置为即兴委婉语,作为包含即兴委婉语的语料;
[0015]接着,找到一份不包含委婉语的语料,从中随机抽取和黒语料数量相等的句子,进行短语分割后作为白语料;
[0016]最后,将黒语料、包含即兴委婉语的语料以及白语料混合,构造目标语料库。
[0017]优选的,步骤S2中,所述对目标语料进行粗分类,具体包括以下步骤:
[0018]A21、获取训练语料:使用黒语料训练一个word2vector模型,查找与seed词语的词向量余弦相似度最接近的前100个词语或短语,再找到黑语料中所述前100个词语或短语所在的句子,并给所述前100个词语或短语打上MASK;在白语料中找到相同数量的句子,并从每个句子中随机选择一个词语或短语打上MASK;将所述前100个词语或短语打上MASK的句子和同等数量的随机选择一个词语或短语打上MASK的句子作为训练语料,并将所得训练语料划分为训练集和测试集;
[0019]A22、训练模型:使用训练集训练二分类模型,同时在训练过程中使用测试集在每个Epoch上进行测试,获得loss最低的checkpoint;
[0020]A23、模型推理;对目标物料采用loss最低的checkpoint进行推理,判断目标语料(句子)中的MASK是否与seed词语相关,并输出推理结果。
[0021]优选的,步骤S3中,所述对粗分类结果进行细粒度筛选,具体包括以下步骤:
[0022]A31、获取训练语料:使用目标语料训练一个word2vector模型,查找与seed词语的平均词向量余弦相似度最接近的前1000个词语或短语,找到所述前1000个词语或短语所在的句子,并给所述前1000个词语或短语打上MASK,作为训练语料;
[0023]A32、训练模型:使用训练语料对能够进行掩码预测的语言模型进行训练,得到训练好的语言模型,即最佳checkpointⅠ;
[0024]A33、模型推理:对步骤A23的推理结果采用最佳的checkpointⅠ进行推理,判断步骤A23的推理结果的前topn个是否存在seed词语,若存在则保留,作为推理结果。
[0025]优选的,步骤A32中,所述使用训练语料对能够进行掩码预测的语言模型进行训练,以最佳checkpoint评价指标作为判断语言模型完成训练的指标,具体步骤为:
[0026]A321、在目标语料中为每个seed挑选50个句子,将seed打上MASK后喂入语言模型做推理,并记录其他seed出现在推理结果排序列表的排序,每一个seed对应50个最小排序值,对所述50个最小排序值的六个数据特征每轮取一个数据特征进行分析;其中,六个数据特征分别为:最小值、25分位数、中位数、75分位数、最大值和平均数;
[0027]A322、将每一个Epoch的推理结果视为一个向量,训练e个Epoch将得到e个向量,每
一个向量的每一个维度选取一个最小值,得到一个最小值向量;
[0028]A323、分别计算每个向量与最小值向量的欧几里得距离,距离最小的向量对应着训练结果最好的Epoch,六个数据特征分别得到六个checkpoint,投票得到最佳的checkpoint,表明此时语言模型已完成训练。
[0029]优选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,包括以下步骤:S1、构造目标语料库,包括黑语料、白语料和包含即兴委婉语的语料;S2、对目标语料进行粗分类:S3、对粗分类结果进行细粒度筛选;S4、对粗分类结果进行重训练,获得即兴委婉语和普通委婉语的检测结果。2.根据权利要求1所述的一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,步骤S1中,所述构造目标语料库,具体包括以下步骤:首先,在Reddit论坛中选择使用委婉语的主题为blackhat、darknet、drug、silkroad、deepweb、darkmarket的六个子版块,从六个子板块中获取语料,对语料进行短语分割后作为黒语料;然后,挑选22个毒品名称作为seed,每一个seed挑选一个委婉语,每个委婉语在黒语料中人工查找20个句子,那么22个seed挑选22个委婉语,22个委婉语对应地在黑语料中人工查找440个句子,将所述440个句子中的委婉语设置为即兴委婉语,作为包含即兴委婉语的语料;接着,找到一份不包含委婉语的语料,从中随机抽取和黒语料数量相等的句子,进行短语分割后作为白语料;最后,将黒语料、包含即兴委婉语的语料以及白语料混合,构造目标语料库。3.根据权利要求2所述的一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,步骤S2中,所述对目标语料进行粗分类,具体包括以下步骤:A21、获取训练语料:使用黒语料训练一个word2vector模型,查找与seed词语的词向量余弦相似度最接近的前100个词语或短语,再找到黑语料中所述前100个词语或短语所在的句子,并给所述前100个词语或短语打上MASK;在白语料中找到相同数量的句子,并从每个句子中随机选择一个词语或短语打上MASK;将所述前100个词语或短语打上MASK的句子和同等数量的随机选择一个词语或短语打上MASK的句子作为训练语料,并将所得训练语料划分为训练集和测试集;A22、训练模型:使用训练集训练二分类模型,同时在训练过程中使用测试集在每个Epoch上进行测试,选择loss最低的checkpoint作为训练好的模型用于后续推理;A23、模型推理;对目标语料采用loss最低的checkpoint进行推理,判断目标语料句子中的MASK是否与seed词语相关,并输出推理结果。4.根据权利要求3所述的一种基于困难样本筛选的即兴委婉语检测方法,其特征在于,步骤S3中,所述对粗分类结果进行细粒度筛选,具体包括以下步骤:A31、获取训练语料:使用目标语料训练一个word2vector模型,查找与seed词语的平均词向量余弦相似度最接近...

【专利技术属性】
技术研发人员:李湘赵来平李克秋
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1