一种基于半监督学习的询盘异常检测方法技术

技术编号：37138263 阅读：28 留言：0更新日期：2023-04-06 21:40

本发明专利技术公开了一种基于半监督学习的询盘异常检测方法，1)准备用于外贸询盘检测训练与测试的数据，所述数据包括正常询盘数据、垃圾询盘数据；2)数据预处理，步骤包括噪词形变换、样本扩充；3)加载Bert

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的询盘异常检测方法

[0001]本专利技术涉及深度学习和自然语言处理领域，特别是涉及一种基于半监督学习的询盘异常检测方法。

技术介绍

[0002]询盘对于一个外贸公司来说十分重要，是买家卖家沟通必不可少的通讯工具之一，随着询盘的使用频率越来越高，垃圾询盘也随之而来。垃圾询盘的爆发，困扰着每一位供货商。针对垃圾询盘这一个问题，目前外贸行业内没有一个确切有效的方法，去保证海外市场贸易过程中不被垃圾询盘影响。虽然垃圾询盘的数量很多，但相比于正常询盘，比例还是十分小。因此传统有监督的文本分类方法不能解决高类不平衡比例的分类。因此，采用半监督的方式，去解决垃圾询盘所面临的类不平衡比例过高的问题。
[0003]半监督学习(SSL)，全称Semi
‑
Supervised Learning,类属于机器学习(Machine Learning,ML)。在只有少量标记样本，大部分样本都是无标记的情况下，可以使用半监督学习方法，根据无标记样本与标记样本间的相似度、以及无标记样本潜在的分布，这两个核心思想，对无标记的样本进行标记。BERT全称Bidirectional Encoder Representations from Transformers,由全程可以看出来，BERT使用的是Transformer模型，使用的是Transformer的Encoder部分。
[0004]本专利技术针对半监督分类问题进行了方案设计，借鉴GANomaly方式：GANomaly损失函数分为两部分，第一部分是...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的询盘异常检测方法，其特征在于，包括如下步骤：步骤一：准备用于外贸询盘检测训练与测试的数据，所述数据包括正常询盘数据、垃圾询盘数据；步骤二：数据预处理，步骤包括词形变换、样本扩充；步骤三：加载Bert
‑
Large模型，提取文本的Embedding；Embedding的本质是用一个较低维度的向量来代替较高维度的原始特征；其中Bert
‑
large模型，是一个24层Encoder的Transformer结构；步骤四：设定生成器与判别器模型架构：定义生成器Generator、判别器Discriminator模型结构和损失函数；其中生成器模型包括两个特征编码器Encoder，一个特征解码器Decoder，其中Encoder的作用在于对特征进行降维，而Decoder的作用在于对特征的生成；而判别器模型就是一个多层的DNN二分类模型，其倒数第二层的输出维度为256维，用于计算句子特征向量Sequence Embedding和句向量Synthetic Embedding的均方误差；步骤五：加载Generator、Discriminator模型，利用正常询盘向量数据，训练模型；步骤六：基于以训练好的Generator和Discriminator以及测试集的embedding，测试模型的准确率。2.如权利要求1所述的一种针对外贸产品的垃圾询盘检测方法，其特征在于：所述步骤一中，从已有询盘数据中基于询盘主题Object、询盘内容Content，以及询盘标记字段Check_it_efflect，处理成文本标签对Object+Content,Label的形式，并且区分好正常询盘数据与垃圾询盘数据集。3.如权利要求1所述的检测方法，其特征在于：所述步骤二中，数据预处理还包括如下步骤：利用词形还原、词形扩充、符号转换方法将文本标签对中的产品名称变换成具有不同词形的文本以扩充样本。4.如权利要求1所述的检测方法，其特征在于：所述步骤三中，采用预训练语言模型Bert
‑
Large模型，通过分词器获得的句子映射，将每一条样本的映...

【专利技术属性】
技术研发人员：张爱民，房鹏展，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人