一种基于TPN的小样本文本分类方法技术

技术编号:25041924 阅读:19 留言:0更新日期:2020-07-29 05:32
一种基于TPN的小样本文本分类方法,包括如下步骤,步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;步骤S2、对文本进行编码处理;步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;步骤S5、使用交叉熵优化模型。本方法采用基于TPN的Few‑Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题。

【技术实现步骤摘要】
一种基于TPN的小样本文本分类方法
本专利技术属于文本分类
,具体涉及一种基于TPN的小样本文本分类方法。
技术介绍
据申请人了解,关于小样本标注问题的研究,主要分为三个方向,一是:ModelBased,旨在通过模型结构的设计快速在少量样本上更新参数,直接建立输入x和预测值P的映射函数;二是OptimizationBased,该方法认为普通的梯度下降方法难以在few-shot场景下拟合,因此通过调整优化方法来完成小样本分类的任务;三是MetricBased,该方法通过度量batch集中的样本和support集中样本的距离,借助最近邻的思想完成分类。尤其是第三种方法,是当前比较热门的研究思路,而且在这个方向上,研究成果层出不穷。包括1、孪生网络(SiameseNetwor),有监督的方式训练孪生网络来学习,然后重用网络所提取的特征进行one/few-shot学习。2、匹配网络(MatchNetwork),为支撑集和Batch集构建不同的编码器,最终分类器的输出是支撑集样本和query之间预测值的加权求和。3、原型网络(PrototypeNetwork),每个类别都存在一个原型表达,该类的原型是supportset在embedding空间中的均值。然后,分类问题变成在embedding空间中的最近邻。c1、c2、c3分别是三个类别的均值中心(称Prototype),将测试样本x进行embedding后,与这3个中心进行距离计算,从而获得x的类别。4、InductionNetworks,该框架也是基于MetricBased方法,结构式Encoder-Induction-Relation的三级框架,Encoder模块用于获取每个样本的语义表示,可以使用典型的CNN、LSTM、Transformer等结构,Induction模块用于从支撑集的样本语义中归纳出类别特征,Relation模块用于度量query和类别之间的语义关系,进而完成分类。然而这些网络分别具有一定的缺陷,具体如下,1、孪生网络(SiameseNetwork)要求输入数据集的正样本和负样本比例为1:1;2、匹配网络(MatchNetwork),该网络结构清晰,运行速度快,但在不同分布的数据集上的表现相差巨大,这个在实际应用时是无法接受的;3、原型网络(PrototypeNetwork),该网络结构单一,训练方便,对于测试集的数据分布不敏感,但也存在预测准确率较低等问题;4、InductionNetworks,该网络融合了胶囊网络与RelationNetwork,但在不同数据集上的表现差异较大
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足,提供一种基于TPN的小样本文本分类方法,采用基于TPN的Few-Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题。本专利技术提供一种基于TPN的小样本文本分类方法,包括如下步骤,步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;步骤S2、对文本进行编码处理;步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;第一步:初始化,利用权重公式来计算每条边的权重wij,得到数据间的相似度;第二步:根据得到的权重wij,计算标签j传递到i的概率:第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复第四步,直至收敛;步骤S5、使用交叉熵优化模型作为本专利技术的进一步技术方案,步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。进一步的,采用LASER方法无需进行FineTune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。进一步的,步骤S3中,边的权重为其中,dij为两个节点之间的距离,σ是超参。本专利技术采用基于TPN的Few-Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题,在系统自动抽取相关知识并自学习为新意图的基础上,实时快速更新模型并集成意图识别的功能。该模型的思路还可以泛华到序列标注等具有相似思路的问题上。附图说明图1为本专利技术的样本转换图;图2为对话系统的使用流程图。具体实施方式请参阅图1,本实施例提供一种基于TPN的小样本文本分类方法,包括如下步骤,步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;步骤S2、对文本进行编码处理;步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;第一步:初始化,利用权重公式来计算每条边的权重wij,得到数据间的相似度;第二步:根据得到的权重wij,计算标签j传递到i的概率:第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复第四步,直至收敛;步骤S5、使用交叉熵优化模型步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。采用LASER方法无需进行FineTune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。边的权重为其中,dij为两个节点之间的距离,σ是超参。如图2所示,将本模型上线至自研的对话系统中,对系统的产品使用效果方面有了显著的提升,对于基于sigmoid的多意图识别,准确率达到87.63%以上显示和描述了本专利技术的基本原理、主要特征和优点。本领域的技术人员应该了解,本专利技术不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本专利技术的原理,在不脱离本专利技术精神范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护的范围由权利要求书及其等效物界定。本文档来自技高网
...

【技术保护点】
1.一种基于TPN的小样本文本分类方法,其特征在于,包括如下步骤,/n步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;/n步骤S2、对文本进行编码处理;/n步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;/n步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;/n第一步:初始化,利用权重公式来计算每条边的权重w

【技术特征摘要】
1.一种基于TPN的小样本文本分类方法,其特征在于,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij


得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:



第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播...

【专利技术属性】
技术研发人员:刘园朱德伟张弛
申请(专利权)人:华泰证券股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1