【技术实现步骤摘要】
一种数据处理方法及装置
本说明书涉及计算机应用领域,尤其涉及一种数据处理方法及装置。
技术介绍
随着信息化的发展,互联网中包含着越来越多的企业的业务信息,监管机构可以获取并分析这些信息,进而判断对应的企业是否属于违法违规企业。通常,人们可以通过机器学习的方式,构建并训练分类模型,以根据企业业务信息确定企业是否属于违法违规企业;但是,传统的机器学习方法为了保证生成模型的准确度,在模型训练阶段需要使用大量的人工标注的样本,因此会消耗大量的人力资源。
技术实现思路
有鉴于此,本说明书公开了一种数据处理方法和装置。根据本说明书实施例的第一方面,公开了一种数据处理方法,包括:迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。根据本说明书实施例的第二方面,公开了一种数据处理装置,包括:迭代控制模块,迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值 ...
【技术保护点】
1.一种数据处理方法,包括:/n迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:/n对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;/n基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;/n基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。/n
【技术特征摘要】
1.一种数据处理方法,包括:
迭代执行以下过程,直到达到迭代终止条件;其中,所述迭代终止条件包括:本轮迭代训练得到的分类模型,相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值:
对特征词集合中的特征词进行近似词扩展,并将得到的扩展特征词添加至所述特征词集合;
基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本;其中,所述若干训练样本中的部分训练样本被标记了样本标签;
基于主动学习的方式,对所述若干训练样本,进行迭代训练,得到用于对目标对象进行分类的分类模型。
2.根据权利要求1所述的方法,所述目标对象包括企业;所述特征词包括,针对企业的业务信息进行切分得到的特征词;所述样本标签包括与企业对应的业务类型标签;
所述基于特征词集合中的特征词构建若干训练样本,包括:
对特征词集合中的特征词进行特征词重组,生成若干业务信息作为训练样本;
所述方法还包括:
将待识别业务类型的企业的业务信息作为预测样本,输入训练完成的所述分类模型进行分类计算,并根据所述分类模型的输出分类,确定所述企业的业务类型。
3.根据权利要求1所述的方法,所述将特征词集合中的特征词进行近似词扩展,包括:
计算所述特征词集合中的特征词,与预设的特征词库中的特征词之间的相似度;
当所述预设的特征词库中的任一目标特征词,与所述特征词集合中的特征词的相似度达到阈值,将该目标特征词确定为与所述特征词集合中的特征词对应的扩展特征词。
4.根据权利要求3所述的方法,所述计算特征词集合中的特征词,与预设的特征词库中的特征词之间的相似度之前,还包括:
对所述特征词集合和预设的特征词库中的特征词分别进行词向量处理,得到与所述特征词集合中的特征词对应的词向量;以及,与所述预设的特征词库中的特征词对应的词向量;
所述计算特征词集合中的特征词,与预设的特征词库中的特征词之间的相似度,包括:
计算所述特征词集合中的特征词对应的词向量,与预设的特征词库中的特征词对应的词向量之间的距离;
所述当所述预设的特征词库中的任一目标特征词,与所述特征词集合中的特征词的相似度达到阈值,包括:
当所述预设的特征词库中的任一目标特征词对应的词向量,与所述特征词集合中的特征词对应的词向量的向量距离小于阈值,确定目标特征词与所述特征词集合中的特征词的相似度达到阈值。
5.根据权利要求3所述的方法,
所述预设的特征词库中的特征词所属的业务场景,与所述特征词集合中的特征词所属的业务场景相同。
6.根据权利要求1所述的方法,所述迭代终止条件还包括:
特征词集合中特征词的数量,相对于上一轮迭代的增量小于预设阈值。
7.根据权利要求1所述的方法,在基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本之前,所述方法还包括:
确定从预设的样本库中的样本中提取到的特征词,对待训练的分类模型对应的各输出分类的倾向程度;
进一步将所述提取到的特征词中,对各输出分类的倾向程度不一致的特征词,添加到所述特征词集合中。
8.根据权利要求7所述的方法,所述确定从预设的样本库中提取到的特征词,对待训练的分类模型对应的各输出分类的倾向程度之前,还包括:
基于添加了扩展特征词后的所述特征词集合中的特征词构建若干中间训练样本;其中,所述若干中间训练样本中的部分训练样本被标记了样本标签;
基于主动学习的方式,对所述若干中间训练样本,进行迭代训练,得到用于对目标对象进行分类的中间分类模型,并进一步基于所述中间分类模型对所述预设的样本库中的样本进行分类计算,以将所述预设的样本库中的样本划分为与所述中间分类模型的各输出分类对应的样本集合;
所述确定从预设的样本库中提取到的特征词,对待训练的分类模型对应的各输出分类的倾向程度,包括:
统计所述提取到的特征词,分别在划分出的各样本集合中的出现次数,并基于所述出现次数,计算所述提取到的特征词的倾向性指标;所述倾向性指标表征所述提取到的特征词对待训练的分类模型对应的各输出分类的倾向程度。
9.根据权利要求8所述的方法,所述分类模型为二分类模型;与所述中间分类模型的各输出分类对应的样本集合包括正样本集合和负样本集合;
所述倾向性指标包括:
特征词在正样本集合中的出现次数,和在负样本集合中的出现次数的比值。
10.根据权利要求9所述的方法,所述比值按照从高到低的顺序被划分为正样本区间、中性样本区间和负样本区间;其中,所述正样本区间中的数值大于1,且与1的差值大于阈值;所述中性样本区间中的数值大于或者小于1,且与1的差值小于阈值;所述负样本区间中的数值小于1,且与1的差值大于阈值;
所述将所述提取到的特征词中,对各输出分类的倾向程度不相似的特征词,添加到所述特征词集合中,...
【专利技术属性】
技术研发人员:朱标,章鹏,崔阳,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。