System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种小样本电信诈骗文本分类方法技术_技高网

一种小样本电信诈骗文本分类方法技术

技术编号:44808011 阅读:7 留言:0更新日期:2025-03-28 19:55
本发明专利技术公开了一种小样本电信诈骗文本分类方法,该方法首先通过设计的提示模板与原数据进行拼接,构成新的训练数据,完善句子表达,以便充分利用训练数据,随后根据原始数据构建同类、异类三元组数据对通过对比学习方式高效训练编码器,最后使用逻辑回归模型作为分类头,基于训练后的编码器实现小样本电信诈骗文本细粒度分类;本发明专利技术提出的提示对比分类方法将提示学习与对比学习相结合,通过结合提示模板与对比学习,能够更好的学习到不同诈骗文本间的细微特征差异,更有效地在小样本场景下保持分类精度,且本发明专利技术的小样本电信诈骗文本细粒度分类效果优于现有的基线模型。

【技术实现步骤摘要】

本专利技术涉及文本分类方法领域,具体涉及小样本电信诈骗文本分类方法


技术介绍

1、随着信息时代的发展,互联网技术的普及对社会经济产生了深远影响,同时也催生了新的社会治理挑战。电信网络诈骗作为一种利用现代通信工具实施的犯罪行为,损失严重,而且波及范围广泛,给社会治理带来严峻考验。随着人工智能尤其是深度学习的进步,电信诈骗文本分类成为研究热点,旨在提高对电信诈骗的识别和预防能力;

2、电信诈骗文本细粒度分类对于理解和应对不同类型诈骗至关重要,有助于公安部门精准打击,维护电信安全,近年来,预训练语言模型的微调成为文本分类研究的主要方向,电信诈骗类型繁多,变化多样,电信诈骗文本是一种非结构化的长文本数据,文本中各个主体成分间的关系交错复杂。

3、当前,电信诈骗文本分类常见的方法有三类:(1)基于传统机器学习的方法,传统机器学习算法在分类过程主要遵循“文本预处理”、“特征提取”、“分类计算”三步;但传统机器学习方法受到模型本身复杂度的限制,缺乏对文本数据深入分析的能力;(2)基于传统深度学习的方法,这类方法通过深层神经网络来学习文本的特征,相较传统机器学习可以更好地学习到文本间的关系与深层含义,但深度学习为了达到较高的文本分类精度,需要大量的已标注的训练数据支持,获取大量的标注的数据需要耗费极大的人工成本;(3)基于预训练语言模型微调的方法,这类方法通过使用海量电信诈骗文本数据对预训练网络参数进行调整,但是由于预训练模型与分类目标之间通常存在较大的差异,因此在小样本文本分类任务中这种方式微调效果较差,分类精度不高

4、鉴于以上,本专利技术提供了一种小样本电信诈骗文本分类方法用于解决上述问题。


技术实现思路

1、本专利技术的目的是提供一种小样本电信诈骗文本分类方法,主要包括两部分工作:(1)将设计的提示模板与原训练数据进行拼接,构成新的训练数据,完善句子表达,以便充分利用训练数据;(2)根据训练数据构建同类、异类三元组数据对通过对比学习方式提升编码器的学习能力,高效训练编码器,最后使用逻辑回归模型作为分类头,基于训练后的编码器实现小样本电信诈骗文本细粒度分类。

2、本专利技术为一种小样本电信诈骗文本分类方法,其特征在于,给定一个由n个字符组成的诈骗文本x={x1,x2,…,xn},其中,xi表示文本中的第i个字符,通过公

3、式1来确定文本所属的诈骗类别类别集合为y:

4、

5、本分类方法,主要通过三部分组成,分别是提示模板插入、对比微调句子编码器、分类头训练,具体包括:

6、首先,提示模板插入部分将设计好的提示模板与电信诈骗文本进行拼接,使输入训练的句子成分更加完整;

7、接着,对比微调句子编码器部分通过构建正负三元组样本对来对句子编码器进行微调训练;

8、最后,基于微调后的高效句子编码器来训练逻辑回归分类头,实现小样本电信诈骗文本的高精度细粒度分类。

9、本专利技术的有益效果在于:

10、(1)本研究提出的提示对比分类方法将提示学习与对比学习相结合,通过结合提示模板与对比学习,能够更好的学习到不同诈骗文本间的细微特征差异,更有效地在小样本场景下保持分类精度;

11、(2)通过对公开的电信诈骗文本分类数据集进行评估,实验结果表明,该方法在小样本电信诈骗文本细粒度分类任务上的效果优于基线模型。

本文档来自技高网...

【技术保护点】

1.一种小样本电信诈骗文本分类方法,其特征在于,给定一个由n个字符组成的诈骗文本x={x1,x2,…,xn},其中,xi表示文本中的第i个字符,通过公式1来确定文本所属的诈骗类别类别集合为Y:

2.根据权利要求1所述的一种小样本电信诈骗文本分类方法,其特征在于,所述提示模板插入部分的具体过程,包括,通过构造提示模板,使提示部分与将要分类的句子进行拼接,使最终的输入能够构成一个语义更加完整的句子,为了增强模型对电信诈骗文本分类的理解,基于任务目的与原始句子样本的特点设计提示模板,引导模型关注诈骗文本的分类属性,使其更容易识别文本属于哪一类诈骗,以增强模型对文本特征的理解能力。

3.根据权利要求2所述的一种小样本电信诈骗文本分类方法,其特征在于,所述对比微调句子编码器部分的过程,包括,根据电信诈骗文本类别,构建正负三元组样本对,以使句子编码器可以充分的学习到样本间的特征,高效编码输入的文本。

4.根据权利要求3所述的一种小样本电信诈骗文本分类方法,其特征在于,所述构建正负三元组样本对的具体过程,包括,采用常用于图像相似性的对比训练方法,形式上,假设给定一组样本D其中共有K个样本,可以形式化为:

5.根据权利要求4所述的一种小样本电信诈骗文本分类方法,其特征在于,所述训练逻辑回归分类头的具体过程,包括,使用微调后的句子编码器对训练数据{xi}进行编码,为每个训练样本生成一个句子嵌入:

...

【技术特征摘要】

1.一种小样本电信诈骗文本分类方法,其特征在于,给定一个由n个字符组成的诈骗文本x={x1,x2,…,xn},其中,xi表示文本中的第i个字符,通过公式1来确定文本所属的诈骗类别类别集合为y:

2.根据权利要求1所述的一种小样本电信诈骗文本分类方法,其特征在于,所述提示模板插入部分的具体过程,包括,通过构造提示模板,使提示部分与将要分类的句子进行拼接,使最终的输入能够构成一个语义更加完整的句子,为了增强模型对电信诈骗文本分类的理解,基于任务目的与原始句子样本的特点设计提示模板,引导模型关注诈骗文本的分类属性,使其更容易识别文本属于哪一类诈骗,以增强模型对文本特征的理解能力。

3.根据权利要求...

【专利技术属性】
技术研发人员:司海平李阔董萍乔杨王晓茜闫辉李艳玲
申请(专利权)人:河南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1