模型训练方法、对象识别方法、相关设备及存储介质技术

技术编号：38607101 阅读：14 留言：0更新日期：2023-08-26 23:38

本申请公开模型训练方法、对象识别方法、相关设备及存储介质；模型训练方法主要包括：根据N个对象前置检测策略指示的各个关键词，采用各个初始对象的属性描述数据，对N个对象前置检测策略进行策略命中检测；从多个初始对象中，筛选出命中了至少一个对象前置检测策略的属性描述数据对应的初始对象作为样本对象；基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型，对各样本对象的属性描述数据进行基于对象类型的数据聚类处理，得到多个数据集；采用每个数据集对基准对象识别模型进行模型训练，得到多个关注对象类型下的目标对象识别模型。本申请可提升目标对象识别模型的性能，以及提升对象识别的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、对象识别方法、相关设备及存储介质

[0001]本申请涉及互联网
，具体涉及计算机
，尤其涉及一种模型训练方法、对象识别方法、相关设备及存储介质。

技术介绍

[0002]随着计算机技术的不断发展，对象识别任务被提出；所谓的对象识别任务是指：识别某一对象是否是需关注的关注对象的任务，此处的对象可以例如是商品、广告、网页、音视频等。目前，通常是通过人工识别的方式来实现该对象识别任务的，由于人工识别通常会出现漏检和误判的情况，因此采用此方式进行对象识别，一方面会导致对象识别的准确性较低，另一方面还会导致对象识别的效率较低。

技术实现思路

[0003]本申请实施例提供了一种模型训练方法、对象识别方法、相关设备及存储介质，可以提升目标对象识别模型的性能，以及提升对象识别的准确性。
[0004]在一方面，本申请实施例提供了一种基于策略的模型训练方法，所述方法包括：
[0005]获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据，以及N个对象前置检测策略，N为正整数；其中，一个对象前置检测策略用于指示：一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词；
[0006]根据所述N个对象前置检测策略所指示的各个关键词，分别采用各个初始对象的属性描述数据，对所述N个对象前置检测策略进行策略命中检测；
[0007]从所述多个初始对象中，筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象，作为所述基准对象识别模型的样本对象；/>[0008]基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型，对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理，得到多个数据集，一个数据集对应一个关注对象类型；
[0009]分别采用每个数据集对所述基准对象识别模型进行模型训练，得到多个关注对象类型下的目标对象识别模型；一个目标对象识别模型用于根据输入的任一对象的属性描述数据，预测所述任一对象属于相应的关注对象类型的概率。
[0010]另一方面，本申请实施例提供了一种基于策略的模型训练装置，所述装置包括：
[0011]获取单元，用于获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据，以及N个对象前置检测策略，N为正整数；其中，一个对象前置检测策略用于指示：一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词；
[0012]处理单元，用于根据所述N个对象前置检测策略所指示的各个关键词，分别采用各个初始对象的属性描述数据，对所述N个对象前置检测策略进行策略命中检测；
[0013]所述处理单元，还用于从所述多个初始对象中，筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象，作为所述基准对象识别模型的样本对象；
[0014]所述处理单元，还用于基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型，对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理，得到多个数据集，一个数据集对应一个关注对象类型；
[0015]训练单元，用于分别采用每个数据集对所述基准对象识别模型进行模型训练，得到多个关注对象类型下的目标对象识别模型；一个目标对象识别模型用于根据输入的任一对象的属性描述数据，预测所述任一对象属于相应的关注对象类型的概率。
[0016]再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：
[0017]处理器，适于实现一条或多条指令；以及，计算机存储介质；
[0018]其中，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述所提及的基于策略的模型训练方法。
[0019]再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述所提及的基于策略的模型训练方法。
[0020]再一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序；所述计算机程序被处理器执行时，实现上述所提及的基于策略的模型训练方法。
[0021]本申请实施例通过引入基准对象识别模型，并对基准对象识别模型进行模型训练来得到目标对象识别模型，从而通过目标对象识别模型来实现对象识别任务，这样可提升对象识别的效率和准确性。并且在模型训练的过程中，通过设置N个对象前置检测策略，一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词，使得在获取到对基准对象识别模型进行训练的多个初始对象的属性描述数据后，可先根据N个对象前置检测策略所指示的关键词，从多个初始对象的属性描述数据中筛选出与每种关注对象类型相关联的属性描述数据作为基准对象识别模型的样本数据，这样可保证样本数据的准确性，从而提升后续的模型训练效果，还可避免基准对象识别模型因学习一些与关注对象类型无关的属性描述数据，而造成的资源浪费和训练效率低下的问题。进一步的，通过基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型，将各样本对象的属性描述数据聚类成多个数据集，并分别采用每个数据集针对性地对基准对象识别模型进行模型训练；这样可使得基准对象识别模型每次可统一专注地通过学习单个关注对象类型对应的数据集中的属性描述数据，来优化自身的模型参数，这样可进一步提升模型训练效果，使得训练得到的单个目标对象识别模型对相应关注对象类型下的对象具有较强的识别能力，这样可进一步提升对象识别的准确性。
[0022]另一方面，本申请实施例提供了一种基于策略和模型的对象识别方法，所述方法包括：
[0023]获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略，N为正整数；一个对象前置检测策略用于指示：一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词；
[0024]根据所述N个对象前置检测策略所指示的各个关键词，采用所述目标属性描述数据对所述N个对象前置检测策略进行策略命中检测；
[0025]若所述目标属性描述数据命中至少一个对象前置检测策略，则确定用于对所述目
标对象进行类型预测的目标对象识别模型；
[0026]调用确定出的目标对象识别模型根据所述目标属性描述数据，对所述目标对象进行类型预测，得到所述目标对象的类型预测结果，并根据所述目标对象的类型预测结果判定所述目标对象是否为关注对象。
[0027]另一方面，本申请实施例提供了一种基于策略和模型的对象识别装置，所述装置包括：
[0028]获取单元，用于获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略，N为正整数；一个对象前置检测策略用于指示：一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词；
[0029]识别单元，用于根据所述N个对象前置检测策略所指示的各个关键词，采用所述目标属性描述数据对所述N个对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于策略的模型训练方法，其特征在于，包括：获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据，以及N个对象前置检测策略，N为正整数；其中，一个对象前置检测策略用于指示：一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词；根据所述N个对象前置检测策略所指示的各个关键词，分别采用各个初始对象的属性描述数据，对所述N个对象前置检测策略进行策略命中检测；从所述多个初始对象中，筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象，作为所述基准对象识别模型的样本对象；基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型，对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理，得到多个数据集，一个数据集对应一个关注对象类型；分别采用每个数据集对所述基准对象识别模型进行模型训练，得到多个关注对象类型下的目标对象识别模型；一个目标对象识别模型用于根据输入的任一对象的属性描述数据，预测所述任一对象属于相应的关注对象类型的概率。2.如权利要求1所述的方法，其特征在于，任一个对象前置检测策略还用于指示：相应的各个关键词之间的逻辑关系；所述根据所述N个对象前置检测策略所指示的各个关键词，分别采用各个初始对象的属性描述数据，对所述N个对象前置检测策略进行策略命中检测，包括：针对任一初始对象的属性描述数据，遍历所述N个对象前置检测策略，确定当前遍历的当前对象前置检测策略；根据所述当前对象前置检测策略中的各个关键词以及逻辑关系，确定所述任一初始对象的属性描述数据需命中的目标关键词，并在所述任一初始对象的属性描述数据中查找所述目标关键词；若查找到所述目标关键词，则确定所述任一初始对象的属性描述数据命中所述当前对象前置检测策略；若未查找到所述目标关键词，则继续遍历所述N个对象前置检测策略。3.如权利要求1所述的方法，其特征在于，所述分别采用每个数据集对所述基准对象识别模型进行模型训练，得到多个关注对象类型下的目标对象识别模型，包括：基于任一数据集中的属性描述数据，构建Q个有标签数据以及P个无标签数据对，Q和P均为正整数；一个有标签数据包括：一个有标注样本对象的类型标注标签以及相应的属性描述数据；一个无标签数据对包括：一个无标注样本对象的属性描述数据，以及对属性描述数据进行增广处理得到的增广数据；调用所述基准对象识别模型根据每个有标签数据中的属性描述数据，对相应的有标注样本对象进行类型预测，得到每个有标注样本对象的目标类型预测结果；调用所述基准对象识别模型按照类型一致性的预测目标，根据每个无标签数据对中的属性描述数据和相应的增广数据，分别对相应的无标注样本对象进行类型预测，得到每个无标注样本对象的两个类型预测结果；根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签，以及所述每个无标注样本对象的两个类型预测结果之间的差异，优化所述基准对象识别模型的模型参数，以得到所述任一数据集所对应的关注对象类型下的目标对象识别模型。
4.如权利要求3所述的方法，其特征在于，所述基于任一数据集中的属性描述数据，构建Q个有标签数据以及P个无标签数据对，包括：从任一数据集中选取多个样本对象的属性描述数据构建目标训练集，根据所述目标训练集中的各样本对象的属性描述数据，对所述目标训练集中的多个样本对象进行软去重处理，得到Q个样本对象；获取所述Q个样本对象的类型标注标签，将所述Q个样本对象作为Q个有标注样本对象；并采用所述Q个有标注样本对象的类型标注标签和相应的属性描述数据，构建Q个有标签数据；从所述多个样本对象中除所述Q个样本对象以外的剩余样本对象中，选取P个无标注样本对象；并对所述每个无标注样本对象的属性描述数据进行数据扰动的增广处理，得到所述每个无标注样本对象的增广数据；采用所述每个无标注样本对象的属性描述数据和相应的增广数据，构建P个无标签数据对。5.如权利要求4所述的方法，其特征在于，所述根据所述目标训练集中的各样本对象的属性描述数据，对所述目标训练集中的多个样本对象进行软去重处理，得到Q个样本对象，包括：根据所述目标训练集中的各样本对象的属性描述数据，确定所述各样本对象的对象特征；构建局部敏感哈希池，所述局部敏感哈希池中包括一个或多个特征桶；并控制所述各样本对象的对象特征，以流式的方式依次进入所述局部敏感哈希池中的各特征桶；确定当前欲进入所述局部敏感哈希池的当前样本对象的当前对象特征，并采用局部敏感哈希函数对所述当前对象特征进行哈希映射，根据哈希映射结果为所述当前对象特征在所述局部敏感哈希池中分配目标特征桶；根据所述当前对象特征和所述目标特征桶中已存在的各历史对象特征之间的特征相似度，从所述各历史对象特征所对应的样本对象中检测所述当前样本对象的相似样本对象；若检测到所述相似样本对象，则控制所述当前对象特征进入所述目标特征桶；若未检测到所述相似样本对象，则控制所述当前对象特征进入所述目标特征桶，且将所述当前样本对象添加至待标注对象集中；在所述各样本对象的对象特征均进入所述局部敏感哈希池后，将所述待标注对象集中的样本对象，确定为对所述多个样本对象进行软去重处理后的Q个样本对象。6.如权利要求5所述的方法，其特征在于，若检测到所述相似样本对象，则所述方法还包括：根据所述当前样本对象的属性描述数据和所述相似样本对象的属性描述数据，计算所述当前样本对象和所述相似样本对象之间的对象相似度；若所述对象相似度小于相似度阈值，则将所述当前样本对象添加至待标注对象集中。7.如权利要求5所述的方法，其特征在于，所述任一属性描述数据包括多个属性描述文本；所述根据所述目标训练集中的各样本对象的属性描述数据，确定所述各样本对象的对象特征，包括：
针对所述目标训练集中的任一样本对象，将所述任一样本对象的属性描述数据中用于唯一描述所述任一样本对象的对象属性的属性描述文本，作为所述任一样本对象的目标属性描述文本；对所述目标训练集中的各样本对象的目标属性描述文本进行分词处理，得到所述各样本对象对应的各文本词；并分别采用所述各样本对象对应的文本词，构建所述各样本对象的词频矩阵；分别对所述各样本对象的词频矩阵进行降维哈希运算，得到所述各样本对象的降维哈希值；并将所述各样本对象的降维哈希值，确定为所述各样本对象的对象特征。8.如权利要求4所述的方法，其特征在于，所述从所述多个样本对象中除所述Q个样本对象以外的剩余样本对象中，选取P个无标注样本对象，包括：采用所述Q个有标签数据对所述基准对象识别模型进行有监督模型训练，得到初始对象识别模型；确定所述多个样本对象中除所述Q个样本对象以外的剩余样本对象，并将所述剩余样本对象中的各个样本对象均作为候选样本对象；调用所述初始对象识别模型根据各个候选样本对象的属性描述数据，对所述各个候选样本对象进行类型预测，并根据预测得到的各个类型预测结果分别确定所述各个候选样本对象的类型伪标签；根据所述各个候选样本对象的类型伪标签，对所述各个候选样本对象进行类型均衡化处理，并根据类型均衡化处理结果从全部的候选样本对象中选取P个候选样本对象作为P个无标注样本对象。9.如权利要求4
‑
8任一项所述的方法，其特征在于，所述任一属性描述数据中的各个属性描述文本是采用第一语言进行表示的文本；所述对所述每个无标注样本对象的属性描述数据进行数据扰动的增广处理，得到所述每个无标注样本对象的增广数据，包括：从第p个无标注样本对象的属性描述数据中，选取至少一个属性描述文本；其中，p∈[1，P]；将每个被选取的属性描述文本，分别翻译成采用第二语言进行表示的文本，得到所述每个被选取的属性描述文本所对应的翻译结果；将所述每个被选取的属性描述文本所对应的翻译结果，回译成采用所述第一语言进行表示的文本，得到所述每个被选取的属性描述文本的回译结果；采用所述每个被选取的属性描述文本的回译结果，以及所述第p个无标注样本对象的属性描述数据中未被选取的属性描述文本，构建所述第p个无标注样本对象的增广数据。10.如权利要求3
‑
8任一项所述的方法，其特征在于，所述根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签，以及所述每个无标注样本对象的两个类型预测结果之间的差异，优化所述基准对象识别模型的模型参数，包括：根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签，确定所述基准对象识别模型的有标签损失值；根据所述每个无标注样本对象的两个类型预测结果之间的差异，确定所述基准对象识别模型的无标签损失值；对所述有标签损失值和所述无标签损失值进行联合损失值运算，得到所述基准对象识
别模型的模型损失值，并根据所述模型损失值优化所述基准对象识别模型的模型参数。11.如权利要求10所述的方法，其特征在于，所述根据所述模型损失值优化所述基准对象识别模型的模型参数，包括：根据所述模型损失值对所述基准对象识别模型的梯度进行回传计算，得到所述基准对象识别模型的回传梯度；确定所述基准对象识别模型的历史学习率，并对所述历史学习率进行规律性地衰减处理，得到目标学习率；根据所述回传梯度和所述目标学习率，优化所述基准对象识别模型的模型参数。12.如权利要求10所述的方法，其特征在于，所述基准对象识别模型包括至少两个类型标签，任一有标注样本对象的目标类型预测结果中包括：任一有标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率；所述根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签，确定所述基准对象识别模型的...

【专利技术属性】
技术研发人员：罗达志，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人