一种分类模型的训练方法及装置制造方法及图纸

技术编号：34621155 阅读：19 留言：0更新日期：2022-08-20 09:28

本说明书公开了一种分类模型的训练方法及装置，从未标注的样本集中选取第一数量的训练样本进行标注后，分别确定各训练样本中各模态的数据对应的特征向量，并确定表征各训练样本中各模态的数据关联程度的分类难度，按照分类难度从小到大的顺序，分批训练分类模型。若训练该分类模型的样本数量未达到预设数量，则根据该分类模型对未标注的其他样本进行分类，确定其他样本分类结果的不确定性，以从中选择分类困难的其他样本继续进行标注，再次训练分类模型。通过重复上述过程，使得在训练分类模型时可以优先采用训练分类效果明显的样本进行训练，分批训练分类模型，使得一方面可以提高训练效率，另一方面减少训练样本的数量，减轻人工标注的成本。轻人工标注的成本。轻人工标注的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种分类模型的训练方法及装置

[0001]本说明书涉及数据处理领域，尤其涉及一种分类模型的训练方法及装置。

技术介绍

[0002]目前，随着计算机技术的发展，为了实现对数据的合理利用，需要基于数据的内容对数据进行分类。
[0003]在现有技术中，一般采用训练好的分类模型对数据进行分类。由于不同格式的数据，例如，字符格式的数据或者图片格式的数据，进行分类的模型并不通用，因此通常针对不同格式的数据采用不同的模型进行分类。
[0004]但是，随着网络的发展，越来越多的数据由多种格式的数据组成，例如，为了增加文章吸引力，用户发表评论时，为文章配图或者视频等，使得用户发表的内容包含多种格式。而针对单一格式的分类模型对这类数据分类的准确率低，并且没有考虑到不同格式的数据之间的关联。

技术实现思路

[0005]本说明书提供一种分类模型的训练方法及装置，以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案：
[0007]本说明书提供了一种分类模型的训练方法，包括：
[0008]从样本集中选取第一数量的训练样本进行人工标注，确定训练集，其中，各训练样本至少由两种模态的数据组成；
[0009]针对所述训练集中的每个训练样本，分别确定该训练样本中各模态的数据对应的特征向量；
[0010]确定该训练样本的各特征向量之间的相似度，以根据确定出的各相似度，确定表征该训练样本中各模态数据的关联程度的分类难度；
[0011]按照各训练样本的分类难度...

【技术保护点】

【技术特征摘要】
1.一种分类模型的训练方法，其特征在于，包括：从样本集中选取第一数量的训练样本进行人工标注，确定训练集，其中，各训练样本至少由两种模态的数据组成；针对所述训练集中的每个训练样本，分别确定该训练样本中各模态的数据对应的特征向量；确定该训练样本的各特征向量之间的相似度，以根据确定出的各相似度，确定表征该训练样本中各模态数据的关联程度的分类难度；按照各训练样本的分类难度从小到大的顺序，对分类模型进行训练；若用于训练所述分类模型的训练样本数量未达到预设数量，则通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类；根据各其他样本分类结果的不确定性从大到小的顺序，确定第一数量的其他样本作为训练样本进行人工标注，并加入到所述训练集中，重新确定各训练样本的分类难度继续训练所述分类模型，直至采用所述预设数量的训练样本训练所述分类模型为止。2.根据权利要求1所述的方法，其特征在于，确定该训练样本的各特征向量之间的相似度，以根据确定出的各相似度，确定表征该训练样本中各模态数据的关联程度的分类难度，具体包括：针对每个模态的数据对应的特征向量，确定该特征向量与其它模态的数据对应的特征向量的相似度；根据确定出的各相似度，确定相似度均值；根据所述相似度均值，确定表征该训练样本中各模态数据的关联程度的分类难度。3.根据权利要求1所述的方法，其特征在于，按照各训练样本的分类难度从小到大的顺序，对分类模型进行训练，具体包括：按照各训练样本的分类难度从小到大的顺序，从所述训练集中转移第二数量的训练样本，加入到更新集中；根据所述更新集中的各训练样本，训练分类模型，并判断所述训练集是否为空；若是，则确定所述分类模型的训练完成；若否，则按照分类难度从小到大的顺序，从所述训练集转移所述第二数量的训练样本到所述更新集中，继续训练所述分类模型，直至所述训练集为空为止。4.根据权利要求1所述的方法，其特征在于，通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类，具体包括：确定所述样本集中未进行标注并选取为训练样本的其他样本；针对每个其他样本，将该其他样本输入到训练后的所述分类模型中，并根据所述分类模型的输出结果，确定该其他样本属于各分类类型的概率；按照该其他样本属于各分类类型的概率从大到小的顺序，确定第一概率以及第二概率；根据所述第一概率与预设的第一阈值的大小关系，确定第一参数；根据所述第一概率和所述第二概率的差值与预设的第二阈值的大小关系，确定第二参数；根据所述第一参数以及所述第二参数，确定该其他样本的不确定性。
5.根据权利要求4所述的方法，其特征在于，根据各其他样本分类结果的不确定性从大到小的顺序，确定第一数量的其他样本作为训练样本进行人工标注，并加入到所述训练集中，具体包括：按照分类结果的不确定性从大到小的顺序，确定各其他样本的排序；确定在所述排序中第一数量位置的其他样本的不确定性，作为标准值；判断不确定性不小于所述标准值的其他样本数量是否大于所述第一数量；若是，则将不确定性大于所述标准值的其他样本，进行人工标注，并加入...

【专利技术属性】
技术研发人员：阮颖颖，马潮，曹佐，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人