一种分类模型的训练方法及装置制造方法及图纸

技术编号:34621155 阅读:19 留言:0更新日期:2022-08-20 09:28
本说明书公开了一种分类模型的训练方法及装置,从未标注的样本集中选取第一数量的训练样本进行标注后,分别确定各训练样本中各模态的数据对应的特征向量,并确定表征各训练样本中各模态的数据关联程度的分类难度,按照分类难度从小到大的顺序,分批训练分类模型。若训练该分类模型的样本数量未达到预设数量,则根据该分类模型对未标注的其他样本进行分类,确定其他样本分类结果的不确定性,以从中选择分类困难的其他样本继续进行标注,再次训练分类模型。通过重复上述过程,使得在训练分类模型时可以优先采用训练分类效果明显的样本进行训练,分批训练分类模型,使得一方面可以提高训练效率,另一方面减少训练样本的数量,减轻人工标注的成本。轻人工标注的成本。轻人工标注的成本。

【技术实现步骤摘要】
一种分类模型的训练方法及装置


[0001]本说明书涉及数据处理领域,尤其涉及一种分类模型的训练方法及装置。

技术介绍

[0002]目前,随着计算机技术的发展,为了实现对数据的合理利用,需要基于数据的内容对数据进行分类。
[0003]在现有技术中,一般采用训练好的分类模型对数据进行分类。由于不同格式的数据,例如,字符格式的数据或者图片格式的数据,进行分类的模型并不通用,因此通常针对不同格式的数据采用不同的模型进行分类。
[0004]但是,随着网络的发展,越来越多的数据由多种格式的数据组成,例如,为了增加文章吸引力,用户发表评论时,为文章配图或者视频等,使得用户发表的内容包含多种格式。而针对单一格式的分类模型对这类数据分类的准确率低,并且没有考虑到不同格式的数据之间的关联。

技术实现思路

[0005]本说明书提供一种分类模型的训练方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种分类模型的训练方法,包括:
[0008]从样本集中选取第一数量的训练样本进行人工标注,确定训练集,其中,各训练样本至少由两种模态的数据组成;
[0009]针对所述训练集中的每个训练样本,分别确定该训练样本中各模态的数据对应的特征向量;
[0010]确定该训练样本的各特征向量之间的相似度,以根据确定出的各相似度,确定表征该训练样本中各模态数据的关联程度的分类难度;
[0011]按照各训练样本的分类难度从小到大的顺序,对分类模型进行训练;
[0012]若用于训练所述分类模型的训练样本数量未达到预设数量,则通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类;
[0013]根据各其他样本分类结果的不确定性从大到小的顺序,确定第一数量的其他样本作为训练样本进行人工标注,并加入到所述训练集中,重新确定各训练样本的分类难度继续训练所述分类模型,直至采用所述预设数量的训练样本训练所述分类模型为止。
[0014]可选的,确定该训练样本的各特征向量之间的相似度,以根据确定出的各相似度,确定表征该训练样本中各模态数据的关联程度的分类难度,具体包括:
[0015]针对每个模态的数据对应的特征向量,确定该特征向量与其它模态的数据对应的特征向量的相似度;
[0016]根据确定出的各相似度,确定相似度均值;
[0017]根据所述相似度均值,确定表征该训练样本中各模态数据的关联程度的分类难度。
[0018]可选的,按照各训练样本的分类难度从小到大的顺序,对分类模型进行训练,具体包括:
[0019]按照各训练样本的分类难度从小到大的顺序,从所述训练集中转移第二数量的训练样本,加入到更新集中;
[0020]根据所述更新集中的各训练样本,训练分类模型,并判断所述训练集是否为空;
[0021]若是,则确定所述分类模型的训练完成;
[0022]若否,则按照分类难度从小到大的顺序,从所述训练集转移所述第二数量的训练样本到所述更新集中,继续训练所述分类模型,直至所述训练集为空为止。
[0023]可选的,通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类,具体包括:
[0024]确定所述样本集中未进行标注并选取为训练样本的其他样本;
[0025]针对每个其他样本,将该其他样本输入到训练后的所述分类模型中,并根据所述分类模型的输出结果,确定该其他样本属于各分类类型的概率;
[0026]按照该其他样本属于各分类类型的概率从大到小的顺序,确定第一概率以及第二概率;
[0027]根据所述第一概率与预设的第一阈值的大小关系,确定第一参数;
[0028]根据所述第一概率和所述第二概率的差值与预设的第二阈值的大小关系,确定第二参数;
[0029]根据所述第一参数以及所述第二参数,确定该其他样本的不确定性。
[0030]可选的,根据各其他样本分类结果的不确定性从大到小的顺序,确定第一数量的其他样本作为训练样本进行人工标注,并加入到所述训练集中,具体包括:
[0031]按照分类结果的不确定性从大到小的顺序,确定各其他样本的排序;
[0032]确定在所述排序中第一数量位置的其他样本的不确定性,作为标准值;
[0033]判断不确定性不小于所述标准值的其他样本数量是否大于所述第一数量;
[0034]若是,则将不确定性大于所述标准值的其他样本,进行人工标注,并加入到所述训练集中,以及根据所述第一数量与不确定性大于所述标准值的其他样本的数量的差值,从不确定性等于所述标准值的其他样本中,选择所述差值数量的其他样本,进行人工标注,并加入到所述训练集中;
[0035]若否,则确定所述排序中前第一数量的其他样本,进行人工标注,并加入到所述训练集中。
[0036]可选的,重新确定各训练样本的分类难度继续训练所述分类模型,直至采用所述预设数量的训练样本训练所述分类模型为止,具体包括;
[0037]根据所述训练集,重新确定各训练样本的分类难度,继续训练所述分类模型;
[0038]判断用于训练所述分类模型的训练样本数量是否未达到所述预设数量;
[0039]若是,则根据继续训练得到的所述分类模型,重新对所述样本集中未加入到所述训练集的各其他样本进行分类,根据重新分类的分类结果的不确定性,更新所述训练集,继续训练所述分类模型,直至用于训练所述分类模型的训练样本数量达到所述预设数量为
止;
[0040]若否,则确定所述分类模型训练完成。
[0041]可选的,直至采用所述预设数量的训练样本训练所述分类模型为止之前,所述方法还包括:
[0042]判断所述样本集中训练样本的数量是否大于预设的检测阈值,其中,所述检测阈值小于所述预设数量;
[0043]若是,则从所述样本集未选取为训练样本的其他样本中,选取第四数量的其他样本进行人工标注,作为测试样本,根据所述分类模型确定所述测试样本的分类结果,并根据所述分类结果以及人工标注确定分类准确率,当所述分类准确率大于预设的准确率阈值时,确定所述分类模型训练完成,当所述分类准确率不大于预设的准确率阈值时,继续对所述分类模型进行训练;
[0044]若否,则继续对所述分类模型进行训练。
[0045]本说明书提供了一种信息展示装置,包括:
[0046]选取模块,用于从样本集中选取第一数量的训练样本进行人工标注,确定训练集,其中,各训练样本至少由两种模态的数据组成;
[0047]确定特征向量模块,用于针对所述训练集中的每个训练样本,分别确定该训练样本中各模态的数据对应的特征向量;
[0048]确定分类难度模块,用于确定该训练样本的各特征向量之间的相似度,以根据确定出的各相似度,确定表征该训练样本中各模态数据的关联程度的分类难度;
[0049]初始训练模块,用于按本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类模型的训练方法,其特征在于,包括:从样本集中选取第一数量的训练样本进行人工标注,确定训练集,其中,各训练样本至少由两种模态的数据组成;针对所述训练集中的每个训练样本,分别确定该训练样本中各模态的数据对应的特征向量;确定该训练样本的各特征向量之间的相似度,以根据确定出的各相似度,确定表征该训练样本中各模态数据的关联程度的分类难度;按照各训练样本的分类难度从小到大的顺序,对分类模型进行训练;若用于训练所述分类模型的训练样本数量未达到预设数量,则通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类;根据各其他样本分类结果的不确定性从大到小的顺序,确定第一数量的其他样本作为训练样本进行人工标注,并加入到所述训练集中,重新确定各训练样本的分类难度继续训练所述分类模型,直至采用所述预设数量的训练样本训练所述分类模型为止。2.根据权利要求1所述的方法,其特征在于,确定该训练样本的各特征向量之间的相似度,以根据确定出的各相似度,确定表征该训练样本中各模态数据的关联程度的分类难度,具体包括:针对每个模态的数据对应的特征向量,确定该特征向量与其它模态的数据对应的特征向量的相似度;根据确定出的各相似度,确定相似度均值;根据所述相似度均值,确定表征该训练样本中各模态数据的关联程度的分类难度。3.根据权利要求1所述的方法,其特征在于,按照各训练样本的分类难度从小到大的顺序,对分类模型进行训练,具体包括:按照各训练样本的分类难度从小到大的顺序,从所述训练集中转移第二数量的训练样本,加入到更新集中;根据所述更新集中的各训练样本,训练分类模型,并判断所述训练集是否为空;若是,则确定所述分类模型的训练完成;若否,则按照分类难度从小到大的顺序,从所述训练集转移所述第二数量的训练样本到所述更新集中,继续训练所述分类模型,直至所述训练集为空为止。4.根据权利要求1所述的方法,其特征在于,通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类,具体包括:确定所述样本集中未进行标注并选取为训练样本的其他样本;针对每个其他样本,将该其他样本输入到训练后的所述分类模型中,并根据所述分类模型的输出结果,确定该其他样本属于各分类类型的概率;按照该其他样本属于各分类类型的概率从大到小的顺序,确定第一概率以及第二概率;根据所述第一概率与预设的第一阈值的大小关系,确定第一参数;根据所述第一概率和所述第二概率的差值与预设的第二阈值的大小关系,确定第二参数;根据所述第一参数以及所述第二参数,确定该其他样本的不确定性。
5.根据权利要求4所述的方法,其特征在于,根据各其他样本分类结果的不确定性从大到小的顺序,确定第一数量的其他样本作为训练样本进行人工标注,并加入到所述训练集中,具体包括:按照分类结果的不确定性从大到小的顺序,确定各其他样本的排序;确定在所述排序中第一数量位置的其他样本的不确定性,作为标准值;判断不确定性不小于所述标准值的其他样本数量是否大于所述第一数量;若是,则将不确定性大于所述标准值的其他样本,进行人工标注,并加入...

【专利技术属性】
技术研发人员:阮颖颖马潮曹佐
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1