一种数据处理方法及装置制造方法及图纸

技术编号:25479711 阅读:15 留言:0更新日期:2020-09-01 23:01
一种数据处理方法及装置,所述方法包括:迭代执行以下过程,直到达到迭代终止条件:对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型;其中,迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值。

【技术实现步骤摘要】
一种数据处理方法及装置
本说明书涉及计算机应用领域,尤其涉及一种数据处理方法及装置。
技术介绍
随着信息化的发展,互联网中包含着越来越多的企业的业务信息,监管机构可以获取并分析这些信息,进而判断对应的企业是否属于违法违规企业。通常,人们可以通过机器学习的方式,构建并训练分类模型,以根据企业业务信息确定企业是否属于违法违规企业;但是,传统的机器学习方法为了保证生成模型的准确度,在模型训练阶段需要使用大量的人工标注的样本,因此会消耗大量的人力资源。
技术实现思路
有鉴于此,本说明书公开了一种数据处理方法和装置。根据本说明书实施例的第一方面,公开了一种数据处理方法,包括:迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。根据本说明书实施例的第二方面,公开了一种数据处理装置,包括:迭代控制模块,迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:近似词扩展模块,对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;训练样本构建模块,基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;分类模型训练模块,基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。以上技术方案中,一方面,由于在训练阶段采用了主动学习的方式进行模型训练,因此,训练样本中可以只有一部分样本被标记样本标签,所以无需人工对所有训练样本进行标记,降低了模型训练过程中的人工成本;另一方面,由于采用了近义词扩展的方式对特征词集合进行了补充,因此可以基于数量较少的初始样本生成数量丰富的训练样本,有助于提高分类模型的精确度和覆盖度。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书文本一同用于解释原理。图1是本说明书示出的一利用分类模型对企业进行分类的流程示例图;图2是本说明书示出的一数据处理方法的流程示例图;图3是本说明书示出的一主动学习方法进行模型训练的流程示例图;图4是本说明书示出的一迭代过程中特征词集和分类模型的变化示例图;图5是本说明书示出的一倾向性指标区间划分的示例图;图6是本说明书示出的一数据处理装置的结构示例图;图7是本说明书示出的一用于数据处理的计算机设备的结构示例图。具体实施方式为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本说明书旨在提出一种结合近似词扩展与主动学习建模技术的数据处理方法,以降低分类模型训练过程中对训练样本进行标记所消耗的人力成本。随着信息化的发展,互联网中包含着越来越多的企业的业务信息,监管机构可以获取并分析这些信息,进而判断对应的企业是否属于违法违规企业。通常,人们可以通过机器学习的方式,构建并训练分类模型,以根据企业业务信息确定企业是否属于违法违规企业;请参见图1,图1为本说明书示出的一种相关技术中较为常见的利用分类模型对企业进行分类的流程示例图。如图1所示,在此流程中,通常可以从已有的企业业务信息取出一部分作为训练集,在人工对其进行样本标记(例如,判定企业业务信息A对应的企业确为违法违规企业后,将企业业务信息A标记为正样本)之后,即可进行分类模型的训练,并使用同样来自于上述已有的企业业务信息的测试集来验证该分类模型的性能;如果其分类结果与实际分类重合度达到一定条件,则可以认为该分类模型即为一可用的分类模型。但是,显而易见的是,上述模型训练阶段需要使用大量的人工标注的样本,因此需要消耗大量的人力资源来对样本进行标注;而如果为了节省人力资源,采用较小容量的样本进行模型训练,则有可能影响最终生成的分类模型的精确度和覆盖度,亦不能满足实际需求。因此,如何兼顾模型的精确度、覆盖度,以及模型训练过程中对人力的消耗,是一个亟待解决的问题。可以理解的是,上述问题不仅存在于上述用于判断企业是否数据违法违规企业的分类模型的训练过程中,而是存在于几乎所有的分类模型的训练过程中。因此,如果能够解决上述问题,则可为需要训练分类模型的诸多领域带来较为明显的人力成本节省效果。基于此,本说明书提出一种首先将特征词集合中的特征词进行近义词扩展,以扩展后的特征词构建训练样本,再通过主动学习的方式进行模型训练以得到分类模型,并以迭代方式执行上述过程,直至分类模型的性能满足需求的技术方案。在实现时,初始状态的特征词集合可以采用少量能够用于构建训练样本的特征词组成的集合,并通过多次迭代中的近似词扩展步骤完成扩充;而经过近似词扩展的特征词,即可构建出更丰富的训练样本,而只需对其中部分训练样本标记样本标签,即可通过主动学习的方式训练得到一个用于对目标对象进行分类的分类模型;而选用分类模型的性能增益作为迭代停止条件,则可在模型训练趋于稳定的情况下及时停止迭本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,包括:/n迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:/n对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;/n基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;/n基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。/n

【技术特征摘要】
1.一种数据处理方法,包括:
迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:
对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;
基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;
基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。


2.根据权利要求1所述的方法,所述目标对象包括企业;所述特征词包括,针对企业的业务信息进行切分得到的特征词;所述样本标签包括与企业对应的业务类型标签;
所述基于特征词集合中的特征词构建若干训练样本,包括:
对特征词集合中的特征词进行特征词重组,生成若干业务信息作为训练样本;
所述方法还包括:
将待识别业务类型的企业的业务信息作为预测样本,输入训练完成的所述分类模型进行分类计算,并根据所述分类模型的输出分类,确定所述企业的业务类型。


3.根据权利要求1所述的方法,所述将特征词集合中的特征词进行近似词扩展,包括:
计算所述特征词集合中的特征词,与预设的特征词库中的特征词之间的相似度;
当所述预设的特征词库中的任一目标特征词,与所述特征词集合中的特征词的相似度达到阈值,将该目标特征词确定为与所述特征词集合中的特征词对应的扩展特征词。


4.根据权利要求3所述的方法,所述计算特征词集合中的特征词,与预设的特征词库中的特征词之间的相似度之前,还包括:
对所述特征词集合和预设的特征词库中的特征词分别进行词向量处理,得到与所述特征词集合中的特征词对应的词向量;以及,与所述预设的特征词库中的特征词对应的词向量;
所述计算特征词集合中的特征词,与预设的特征词库中的特征词之间的相似度,包括:
计算所述特征词集合中的特征词对应的词向量,与预设的特征词库中的特征词对应的词向量之间的距离;
所述当所述预设的特征词库中的任一目标特征词,与所述特征词集合中的特征词的相似度达到阈值,包括:
当所述预设的特征词库中的任一目标特征词对应的词向量,与所述特征词集合中的特征词对应的词向量的向量距离小于阈值,确定目标特征词与所述特征词集合中的特征词的相似度达到阈值。


5.根据权利要求3所述的方法,
所述预设的特征词库中的特征词所属的业务场景,与所述特征词集合中的特征词所属的业务场景相同。


6.根据权利要求1所述的方法,所述迭代终止条件还包括:
特征词集合中特征词的数量,相对于上一轮迭代的增量小于预设阈值。


7.根据权利要求1所述的方法,在基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本之前,所述方法还包括:
确定从预设的样本库中的样本中提取到的特征词,对待训练的分类模型对应的各输出分类的倾向程度;
进一步将所述提取到的特征词中,对各输出分类的倾向程度不一致的特征词,添加到所述特征词集合中。


8.根据权利要求7所述的方法,所述确定从预设的样本库中提取到的特征词,对待训练的分类模型对应的各输出分类的倾向程度之前,还包括:
基于添加了扩展特征词后的所述特征词集合中的特征词构建若干中间训练样本;其中,所述若干中间训练样本中的部分训练样本被标记了样本标签;
基于主动学习的方式,对所述若干中间训练样本,进行迭代训练,得到用于对目标对象进行分类的中间分类模型,并进一步基于所述中间分类模型对所述预设的样本库中的样本进行分类计算,以将所述预设的样本库中的样本划分为与所述中间分类模型的各输出分类对应的样本集合;
所述确定从预设的样本库中提取到的特征词,对待训练的分类模型对应的各输出分类的倾向程度,包括:
统计所述提取到的特征词,分别在划分出的各样本集合中的出现次数,并基于所述出现次数,计算所述提取到的特征词的倾向性指标;所述倾向性指标表征所述提取到的特征词对待训练的分类模型对应的各输出分类的倾向程度。


9.根据权利要求8所述的方法,所述分类模型为二分类模型;与所述中间分类模型的各输出分类对应的样本集合包括正样本集合和负样本集合;
所述倾向性指标包括:
特征词在正样本集合中的出现次数,和在负样本集合中的出现次数的比值。


10.根据权利要求9所述的方法,所述比值按照从高到低的顺序被划分为正样本区间、中性样本区间和负样本区间;其中,所述正样本区间中的数值大于1,且与1的差值大于阈值;所述中性样本区间中的数值大于或者小于1,且与1的差值小于阈值;所述负样本区间中的数值小于1,且与1的差值大于阈值;
所述将所述提取到的特征词中,对各输出分类的倾向程度不相似的特征词,添加到所述特征词集合中,...

【专利技术属性】
技术研发人员:朱标章鹏崔阳
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1