一种基于困难样本筛选的即兴委婉语检测方法技术

技术编号：37665380 阅读：11 留言：0更新日期：2023-05-26 04:23

本发明专利技术公开了一种基于困难样本筛选的即兴委婉语检测方法，包括以下步骤：S1、构造目标语料库，包括黑语料、白语料和包含即兴委婉语的语料；S2、对目标语料进行粗分类：训练二分类模型，对目标物料进行推理；S3、细粒度筛选：训练语言模型，对粗分类的推理结果进行推理，判断前topn个是否存在seed词语，若存在则保留，作为推理结果；S4、重训练：使用细粒度筛选的推理结果重新训练语言模型，对粗分类的推理结果进行推理，获得检测结果。本发明专利技术提出了一种三段式的检测框架，使用该检测框架能够在提升即兴委婉语的检测精度的同时，提升对普通委婉语的检测精度。相较现有方法，本发明专利技术普通委婉语的检测精度提升高达0.24。的检测精度提升高达0.24。的检测精度提升高达0.24。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于困难样本筛选的即兴委婉语检测方法

[0001]本专利技术属于信息安全
，特别涉及一种基于困难样本筛选的即兴委婉语检测方法。

技术介绍

[0002]在暗网，尤其是匿名市场和地下论坛中(如Silkroad，Nude)，不法分子在沟通交流时使用委婉语(Euphemism或称Jargon,Slang)来模糊、混淆其交流内容，从而躲避监管和审查。委婉语检测已经成为了追踪网络非法活动的重要技术手段。
[0003]目前，委婉语检测方法主要分为四种：(1)命名实体识别法：此方法把委婉语检测任务定义为命名实体识别任务，首先需要人工标注一个完整的数据集，使用完全监督算法进行序列标注训练，然后在测试集上推理，从而标注出委婉语在句子中的位置；(2)搜索引擎分析法：此方法把委婉语检测任务定义为同义词词表扩充任务，使用现有的主流搜索引擎(比如百度搜索引擎，谷歌搜索引擎等)搜索seed词语(比如已知的委婉语)后，在搜索结果页面的文本中查找出其同义词，并添加入seed词语的同义词此表中；(3)交叉语料词向量分析法：此方法需要用到两组语料，把需要检测出委婉语的语料称为黒语料，把另一个不包含委婉语的语料称为白语料。训练一个词向量模型，分别在黒语料和白语料上做推理，得到词向量，之后求得同一个词语在两组语料上的词向量的余弦相似度。最后给余弦相似度设置一个阈值，超过这个阈值，说明该词语的语义在黒语料和白语料中相差很大，是委婉语；(4)MASK预测排序法：此方法把委婉语检测任务定义为掩码语言模型的MASK预测排序任务。首先定义一些seed...

【技术保护点】

【技术特征摘要】
1.一种基于困难样本筛选的即兴委婉语检测方法，其特征在于，包括以下步骤：S1、构造目标语料库，包括黑语料、白语料和包含即兴委婉语的语料；S2、对目标语料进行粗分类：S3、对粗分类结果进行细粒度筛选；S4、对粗分类结果进行重训练，获得即兴委婉语和普通委婉语的检测结果。2.根据权利要求1所述的一种基于困难样本筛选的即兴委婉语检测方法，其特征在于，步骤S1中，所述构造目标语料库，具体包括以下步骤：首先，在Reddit论坛中选择使用委婉语的主题为blackhat、darknet、drug、silkroad、deepweb、darkmarket的六个子版块，从六个子板块中获取语料，对语料进行短语分割后作为黒语料；然后，挑选22个毒品名称作为seed，每一个seed挑选一个委婉语，每个委婉语在黒语料中人工查找20个句子，那么22个seed挑选22个委婉语，22个委婉语对应地在黑语料中人工查找440个句子，将所述440个句子中的委婉语设置为即兴委婉语，作为包含即兴委婉语的语料；接着，找到一份不包含委婉语的语料，从中随机抽取和黒语料数量相等的句子，进行短语分割后作为白语料；最后，将黒语料、包含即兴委婉语的语料以及白语料混合，构造目标语料库。3.根据权利要求2所述的一种基于困难样本筛选的即兴委婉语检测方法，其特征在于，步骤S2中，所述对目标语料进行粗分类，具体包括以下步骤：A21、获取训练语料：使用黒语料训练一个word2vector模型，查找与seed词语的词向量余弦相似度最接近的前100个词语或短语，再找到黑语料中所述前100个词语或短语所在的句子，并给所述前100个词语或短语打上MASK；在白语料中找到相同数量的句子，并从每个句子中随机选择一个词语或短语打上MASK；将所述前100个词语或短语打上MASK的句子和同等数量的随机选择一个词语或短语打上MASK的句子作为训练语料，并将所得训练语料划分为训练集和测试集；A22、训练模型：使用训练集训练二分类模型，同时在训练过程中使用测试集在每个Epoch上进行测试，选择loss最低的checkpoint作为训练好的模型用于后续推理；A23、模型推理；对目标语料采用loss最低的checkpoint进行推理，判断目标语料句子中的MASK是否与seed词语相关，并输出推理结果。4.根据权利要求3所述的一种基于困难样本筛选的即兴委婉语检测方法，其特征在于，步骤S3中，所述对粗分类结果进行细粒度筛选，具体包括以下步骤：A31、获取训练语料：使用目标语料训练一个word2vector模型，查找与seed词语的平均词向量余弦相似度最接近...

【专利技术属性】
技术研发人员：李湘，赵来平，李克秋，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人