一种基于TPN的小样本文本分类方法技术

技术编号：25041924 阅读：19 留言：0更新日期：2020-07-29 05:32

一种基于TPN的小样本文本分类方法，包括如下步骤，步骤S1、整理数据集，抽取任意C个类别的文本，每个类别里抽取K个样本，同时在每个类别的剩余样本里抽取query样本；步骤S2、对文本进行编码处理；步骤S3、将编码处理后的每一个样本看为一个结点，各节点之间的边为权重；步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系；步骤S5、使用交叉熵优化模型。本方法采用基于TPN的Few‑Shot模型，实现对话系统中的意图语料积累少、意图多的意图识别问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于TPN的小样本文本分类方法
本专利技术属于文本分类
，具体涉及一种基于TPN的小样本文本分类方法。
技术介绍
据申请人了解，关于小样本标注问题的研究，主要分为三个方向，一是：ModelBased，旨在通过模型结构的设计快速在少量样本上更新参数，直接建立输入x和预测值P的映射函数；二是OptimizationBased，该方法认为普通的梯度下降方法难以在few-shot场景下拟合，因此通过调整优化方法来完成小样本分类的任务；三是MetricBased，该方法通过度量batch集中的样本和support集中样本的距离，借助最近邻的思想完成分类。尤其是第三种方法，是当前比较热门的研究思路，而且在这个方向上，研究成果层出不穷。包括1、孪生网络(SiameseNetwor)，有监督的方式训练孪生网络来学习，然后重用网络所提取的特征进行one/few-shot学习。2、匹配网络(MatchNetwork)，为支撑集和Batch集构建不同的编码器，最终分类器的输出是支撑集样本和query之间预测值的加权求和。3、原型网络(PrototypeNetwork)，每个类别都存在一个原型表达，该类的原型是supportset在embedding空间中的均值。然后，分类问题变成在embedding空间中的最近邻。c1、c2、c3分别是三个类别的均值中心(称Prototype)，将测试样本x进行embedding后，与这3个中心进行距离计算，从而获得x的类别。4、InductionNetw...

【技术保护点】
1.一种基于TPN的小样本文本分类方法，其特征在于，包括如下步骤，/n步骤S1、整理数据集，抽取任意C个类别的文本，每个类别里抽取K个样本，同时在每个类别的剩余样本里抽取query样本；/n步骤S2、对文本进行编码处理；/n步骤S3、将编码处理后的每一个样本看为一个结点，各节点之间的边为权重；/n步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系；输入input：u个未标记数据和C*K个标记的数据及其标签；输出output：u个未标记数据的标签；/n第一步：初始化，利用权重公式来计算每条边的权重w

【技术特征摘要】
1.一种基于TPN的小样本文本分类方法，其特征在于，包括如下步骤，
步骤S1、整理数据集，抽取任意C个类别的文本，每个类别里抽取K个样本，同时在每个类别的剩余样本里抽取query样本；
步骤S2、对文本进行编码处理；
步骤S3、将编码处理后的每一个样本看为一个结点，各节点之间的边为权重；
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系；输入input：u个未标记数据和C*K个标记的数据及其标签；输出output：u个未标记数据的标签；
第一步：初始化，利用权重公式来计算每条边的权重wij

，
得到数据间的相似度；
第二步：根据得到的权重wij，计算标签j传递到i的概率：

第三步：定义一个(l+u)*C的矩阵：Yi,C＝δ(yi,C)；
第四步：每个节点按传播...

【专利技术属性】
技术研发人员：刘园，朱德伟，张弛，
申请(专利权)人：华泰证券股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人