本发明专利技术公开了一种基于半监督学习的询盘异常检测方法,1)准备用于外贸询盘检测训练与测试的数据,所述数据包括正常询盘数据、垃圾询盘数据;2)数据预处理,步骤包括噪词形变换、样本扩充;3)加载Bert
【技术实现步骤摘要】
一种基于半监督学习的询盘异常检测方法
[0001]本专利技术涉及深度学习和自然语言处理领域,特别是涉及一种基于半监督学习的询盘异常检测方法。
技术介绍
[0002]询盘对于一个外贸公司来说十分重要,是买家卖家沟通必不可少的通讯工具之一,随着询盘的使用频率越来越高,垃圾询盘也随之而来。垃圾询盘的爆发,困扰着每一位供货商。针对垃圾询盘这一个问题,目前外贸行业内没有一个确切有效的方法,去保证海外市场贸易过程中不被垃圾询盘影响。虽然垃圾询盘的数量很多,但相比于正常询盘,比例还是十分小。因此传统有监督的文本分类方法不能解决高类不平衡比例的分类。因此,采用半监督的方式,去解决垃圾询盘所面临的类不平衡比例过高的问题。
[0003]半监督学习(SSL),全称Semi
‑
Supervised Learning,类属于机器学习(Machine Learning,ML)。在只有少量标记样本,大部分样本都是无标记的情况下,可以使用半监督学习方法,根据无标记样本与标记样本间的相似度、以及无标记样本潜在的分布,这两个核心思想,对无标记的样本进行标记。BERT全称Bidirectional Encoder Representations from Transformers,由全程可以看出来,BERT使用的是Transformer模型,使用的是Transformer的Encoder部分。
[0004]本专利技术针对半监督分类问题进行了方案设计,借鉴GANomaly方式:GANomaly损失函数分为两部分,第一部分是生成器损失,第二部分为判别器损失,GANomaly损失函数分成两类,一类是Encoder结构,一类是Decoder结构。Encoder主要就是特征降维的作用,如将一张张图片数据压缩成一个个潜在向量;相反,Decoder就是升维的作用,如将一个个潜在向量重建成一张张图片。按照论文描述的结构来分,可以分成三个子结构,分别为生成器网络G,编码器网络E和判别器网络D。本专利技术利用Transformer和GAN网络,去做文本异常检测。通过半监督的深度学习,该方法能够克服垃圾询盘样本数量太少,类别不平衡比例过高。同时还能克服深度学习中样本同义异形、标签错误等噪声干扰。
技术实现思路
[0005]本专利技术所要解决的技术问题是克服现有技术的不足,提供一种基于半监督学习的询盘分类方法。
[0006]为解决上述技术问题,本专利技术提供一种基于半监督学习的询盘分类方法,包括如下步骤:
[0007]步骤一:准备用于外贸询盘检测训练与测试的数据,所述数据包括正常询盘数据、垃圾询盘数据;
[0008]步骤二:数据预处理,步骤包括噪词形变换、样本扩充;
[0009]步骤三:Word Embedding(提取),加载Bert
‑
Large模型,提取文本的Embedding;Embedding的本质是用一个较低维度的向量来代替较高维度的原始特征;其中Bert
‑
Large
模型,是一个24层Encoder的Transformer结构;
[0010]步骤四:设定生成器与判别器模型架构:定义生成器(Generator)、判别器(Discriminator)模型结构和损失函数;其中生成器模型包括两个特征编码器(Encoder),一个特征解码器(Decoder),其中Encoder的作用在于对特征进行降维,而Decoder的作用在于对特征的生成;而判别器模型就是一个多层的DNN二分类模型,其倒数第二层的输出维度为256维,其目的在于计算Sequence Embedding和Synthetic Embedding的均方误差;
[0011]步骤五:模型训练,加载Generator、Discriminator模型,利用正常询盘的Sequence Embedding数据,训练模型;
[0012]步骤六:基于以训练好的Generator和Discriminator以及测试集的embedding,测试模型的准确率。
[0013]所述步骤一中,从已有询盘数据中基于询盘主题(Object)、询盘内容(Content),以及询盘标记字段(Check_it_Effect),处理成文本标签对(Object+Content,Label)的形式,并且区分好正常询盘数据与垃圾询盘数据集。
[0014]所述步骤二中,数据预处理还包括如下步骤:
[0015]利用词形还原、词形扩充、符号转换等方法将文本标签对中的产品名称变换成具有不同词形的文本以扩充样本。
[0016]所述步骤三中,采用预训练语言模型Bert
‑
Large模型,将通过分词器获得的样本的映射输入模型中,获得每条样本的潜在特征向量(Sequence Embedding);
[0017]所述步骤四中,生成器由Encode1
–
>Decoder1
–
>Encode2这样的结构构成,目的在于生成和原句子特征向量尽可能相似的句向量(Synthetic Embedding);而判别器就是一个多层DNN二分类网络,模型建立还包括如下步骤:
[0018]步骤4
‑
1:定义2个相同的Encoder结构,网络结构为多层DNN;
[0019]步骤4
‑
2:定义1个Decoder结构,网络结构依次为DNN
‑
>GPT2
‑
>DNN。
[0020]步骤4
‑
3:定义判别器,网络结构为多层DNN二分类网络;
[0021]步骤4
‑
4:定义损失函数,Generator损失函数分为三个部分:Encode1得到的隐变量和Encode2得到的隐变量的均方误差(Lenc);Decoder1得到的Synthetic Embedding与Sequence Embedding的范数误差(Lcon);Sequence Embedding在Discriminator中的输出与Synthetic Embedding在Discriminator中的输出的均方误差(Ladv)。把这三个误差分别按照一定的权重相加就得到生成器总误差。判别器损失函数为GAN的判别器损失。
[0022]所述步骤五中,基于步骤四中定义好的模型,加载正常询盘样本的Sequence Embedding,训练模型;
[0023]所述步骤六中,预测询盘的类别,基于步骤五训练得到的最优模型,向模型输入一个样本的Sequence Embedding,返回Sequence Embedding和Synthetic Embedding的损失大小,基于给定的损失阈值,对大于该阈值的样本认定为垃圾询盘。
[0024]有益效果:本专利技术基于半监督学习的询盘异常检测方法主要是针对外贸产品的垃圾询盘检测方法,(1)输入询盘内容与询盘主题,可准确判别本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于半监督学习的询盘异常检测方法,其特征在于,包括如下步骤:步骤一:准备用于外贸询盘检测训练与测试的数据,所述数据包括正常询盘数据、垃圾询盘数据;步骤二:数据预处理,步骤包括词形变换、样本扩充;步骤三:加载Bert
‑
Large模型,提取文本的Embedding;Embedding的本质是用一个较低维度的向量来代替较高维度的原始特征;其中Bert
‑
large模型,是一个24层Encoder的Transformer结构;步骤四:设定生成器与判别器模型架构:定义生成器Generator、判别器Discriminator模型结构和损失函数;其中生成器模型包括两个特征编码器Encoder,一个特征解码器Decoder,其中Encoder的作用在于对特征进行降维,而Decoder的作用在于对特征的生成;而判别器模型就是一个多层的DNN二分类模型,其倒数第二层的输出维度为256维,用于计算句子特征向量Sequence Embedding和句向量Synthetic Embedding的均方误差;步骤五:加载Generator、Discriminator模型,利用正常询盘向量数据,训练模型;步骤六:基于以训练好的Generator和Discriminator以及测试集的embedding,测试模型的准确率。2.如权利要求1所述的一种针对外贸产品的垃圾询盘检测方法,其特征在于:所述步骤一中,从已有询盘数据中基于询盘主题Object、询盘内容Content,以及询盘标记字段Check_it_efflect,处理成文本标签对Object+Content,Label的形式,并且区分好正常询盘数据与垃圾询盘数据集。3.如权利要求1所述的检测方法,其特征在于:所述步骤二中,数据预处理还包括如下步骤:利用词形还原、词形扩充、符号转换方法将文本标签对中的产品名称变换成具有不同词形的文本以扩充样本。4.如权利要求1所述的检测方法,其特征在于:所述步骤三中,采用预训练语言模型Bert
‑
Large模型,通过分词器获得的句子映射,将每一条样本的映...
【专利技术属性】
技术研发人员:张爱民,房鹏展,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。