基于人工智能的任务预测方法、装置、设备和介质制造方法及图纸

技术编号：36954804 阅读：55 留言：0更新日期：2023-03-22 19:15

本申请涉及人工智能技术领域，提供一种基于人工智能的任务预测方法、装置、设备和介质,方法包括获取第一样本集，第一样本集包括多个无标签的第一表格样本；对第一表格样本中的部分初始字段值进行掩码处理；根据掩码后表格样本确定第一损失值；根据第一损失值更新编码器，使得编码器在迭代更新过程中以自监督的方式对表格数据的特征进行深度学习，并获得预训练模型；基于预训练模型构建任务模型；基于各个第二表格样本和第二表格样本对应的标签训练任务模型，以获得目标任务模型；通过目标任务模型确定目标表格数据对应的任务预测结果。通过上述方案，即使在有标签的表格样本量不足的情况下，仍然能保证任务模型执行任务预测的性能和准确度。性能和准确度。性能和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的任务预测方法、装置、设备和介质

[0001]本申请涉及人工智能
，具体涉及一种基于人工智能的任务预测方法、装置、设备和介质。

技术介绍

[0002]随着人工智能技术的发展，使用人工智能技术来执行各种任务预测的场景也越来越多，例如，在电商的产品推荐场景中，常通过神经网络基于目标对象的属性特征，预测目标对象感兴趣的产品，进而根据预测结果向目标对象展示产品推荐内容。
[0003]在实际的任务预测场景中，很多时候需要神经网络基于表格模态的数据输出预测结果。为了使神经网络能够学习到表格数据的特征，通常需要收集大量的表格模态的样本并手动标记它们，以利用有标签的表格模态样本对神经网络进行有监督的训练。然而，对于表格数据和标签匮乏的特定任务，这种通过有监督训练得到的任务模型的效果就很受限，任务模型对表格数据的特征提取能力较低。

技术实现思路

[0004]本申请实施例提供基于一种基于人工智能的任务预测方法、装置、设备和介质，能够节省训练任务模型的标注成本，同时能保证任务模型对表格数据的特征提取能力，从而提升任务模型执行任务预测的性能和准确度。
[0005]第一方面，本申请实施例提供基于人工智能的任务预测方法，所述方法包括以下步骤：
[0006]获取第一样本集，所述第一样本集包括多个无标签的第一表格样本，每个第一表格样本包括多个字段，每个字段包括初始字段值；
[0007]对于各个所述第一表格样本，对所述第一表格样本中的部分初始字段值进行掩码处理，得到掩码后表格样本；r/>[0008]通过预设的编码器确定所述掩码后表格样本对应的语义向量序列；
[0009]获取所述掩码后表格样本中的掩码位置；
[0010]根据所述掩码后表格样本对应的所述语义向量序列、所述第一表格样本和所述掩码位置，确定第一损失值；
[0011]根据所述第一损失值更新所述编码器，以获得预训练模型；
[0012]基于所述预训练模型构建任务模型；
[0013]获取第二样本集，所述第二样本集包括多个第二表格样本，每个所述第二表格样本具有对应的标签；
[0014]基于各个所述第二表格样本和所述第二表格样本对应的标签训练所述任务模型，以获得目标任务模型；
[0015]获取目标表格数据，并通过所述目标任务模型确定所述目标表格数据对应的任务预测结果。
[0016]在一些实施例中，所述编码器包括特征提取层和语义编码层；所述通过预设的编码器确定所述掩码后表格样本对应的语义向量序列，包括：
[0017]通过所述特征提取层基于所述掩码后表格样本包括的所述字段和目标字段值，确定第一嵌入向量序列；
[0018]通过所述语义编码层基于所述第一嵌入向量序列，确定所述掩码后表格样本对应的语义向量序列。
[0019]在一些实施例中，所述特征提取层包括第一特征提取层和第二特征提取层；所述通过所述特征提取层基于所述掩码后表格样本包括的所述字段和所述目标字段值，确定第一嵌入向量序列，包括：
[0020]对于所述掩码后表格样本中的各个所述字段，通过所述第一特征提取层基于所述字段对应的类型，确定所述字段的第一嵌入向量；
[0021]通过所述第二特征提取层基于所述字段对应的所述目标字段值，确定所述字段的第二嵌入向量；
[0022]根据所述字段对应的所述第一嵌入向量和所述第二嵌入向量，确定所述字段对应的第三嵌入向量；
[0023]根据所述掩码后表格样本中所有字段对应的第三嵌入向量，确定所述第一嵌入向量序列。
[0024]在一些实施例中，所述通过所述第二特征提取层基于所述字段对应的所述目标字段值，确定所述字段的第二嵌入向量，包括：
[0025]获取所述字段对应的所述目标字段值的数值类型；
[0026]当所述目标字段值的所述数值类型为连续型数值，根据预设的多个数值区间确定所述目标字段值对应的目标数值区间，并根据所述目标数值区间对应的第一预设嵌入向量确定所述字段对应的第二嵌入向量；
[0027]当所述目标字段值的所述数值类型为离散型数值，根据所述目标字段值对应的第二预设嵌入向量确定所述字段对应的第二嵌入向量；
[0028]当所述目标字段值的所述数值类型为掩码型数值，根据所述掩码型数值对应的第三预设嵌入向量确定所述字段对应的第二嵌入向量。
[0029]在一些实施例中，所述根据所述掩码后表格样本对应的所述语义向量序列、所述第一表格样本和所述掩码位置，确定第一损失值，包括：
[0030]根据所述掩码位置在所述掩码后表格样本对应的所述字段，确定所述掩码后表格样本中每个所述字段对应的标签，使得所述掩码位置对应的所述字段的所述标签为1，非所述掩码位置对应的所述字段的所述标签为0；
[0031]根据各个所述字段对应的标签得到标签序列；
[0032]从所述掩码后表格样本对应的所述第一表格样本中确定初始字段值序列，通过预设的特征提取网络基于所述初始字段值序列确定第二嵌入向量序列；
[0033]根据所述标签序列、所述第二嵌入向量序列和所述语义向量序列计算得到所述第一损失值；
[0034]其中，所述标签序列中的标签、所述第二嵌入向量序列中的嵌入向量和所述语义向量序列中的语义向量均是按照所述字段的顺序排列的。
[0035]在一些实施例中，所述第一损失值通过以下公式计算得到：
[0036][0037]其中，l oss表示所述第一损失值，s im表示相似度计算函数，L表示所述掩码后表格样本包括的字段数目，A
i
表示所述语义向量序列中的第i个语义向量，表示所述第二嵌入向量序列中的第i个嵌入向量，M
i
表示所述标签序列中的第i个标签。
[0038]在一些实施例中，所述基于所述预训练模型构建任务模型，包括：
[0039]将所述预训练模型作为所述任务模型的预处理层；
[0040]在所述预处理层的输出端增加输出层，得到所述任务模型。
[0041]第二方面，本申请实施例提供一种基于人工智能的任务预测装置，所述装置包括：
[0042]第一获取模块，用于获取第一样本集，所述第一样本集包括多个无标签的第一表格样本，每个第一表格样本包括多个字段，每个字段包括初始字段值；
[0043]掩码处理模块，用于对于各个所述第一表格样本，对所述第一表格样本中的部分初始字段值进行掩码处理，得到掩码后表格样本；
[0044]第一确定模块，用于通过预设的编码器确定所述掩码后表格样本对应的语义向量序列；
[0045]第二获取模块，用于获取所述掩码后表格样本中的掩码位置；
[0046]第二确定模块，用于根据所述掩码后表格样本对应的所述语义向量序列、所述第一表格样本和所述掩码位置，确定第一损失值；
[0047]第一训练模块，用于根据所述第一损失值更新所述编码器，以获得预训练模型；
[0048]模型构建模块，用于基于所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的任务预测方法，其特征在于，所述方法包括以下步骤：获取第一样本集，所述第一样本集包括多个无标签的第一表格样本，每个第一表格样本包括多个字段，每个字段包括初始字段值；对于各个所述第一表格样本，对所述第一表格样本中的部分初始字段值进行掩码处理，得到掩码后表格样本；通过预设的编码器确定所述掩码后表格样本对应的语义向量序列；获取所述掩码后表格样本中的掩码位置；根据所述掩码后表格样本对应的所述语义向量序列、所述第一表格样本和所述掩码位置，确定第一损失值；根据所述第一损失值更新所述编码器，以获得预训练模型；基于所述预训练模型构建任务模型；获取第二样本集，所述第二样本集包括多个第二表格样本，每个所述第二表格样本具有对应的标签；基于各个所述第二表格样本和所述第二表格样本对应的标签训练所述任务模型，以获得目标任务模型；获取目标表格数据，并通过所述目标任务模型确定所述目标表格数据对应的任务预测结果。2.根据权利要求1所述的基于人工智能的任务预测方法，其特征在于，所述编码器包括特征提取层和语义编码层；所述通过预设的编码器确定所述掩码后表格样本对应的语义向量序列，包括：通过所述特征提取层基于所述掩码后表格样本包括的所述字段和目标字段值，确定第一嵌入向量序列；通过所述语义编码层基于所述第一嵌入向量序列，确定所述掩码后表格样本对应的语义向量序列。3.根据权利要求2所述的基于人工智能的任务预测方法，其特征在于，所述特征提取层包括第一特征提取层和第二特征提取层；所述通过所述特征提取层基于所述掩码后表格样本包括的所述字段和所述目标字段值，确定第一嵌入向量序列，包括：对于所述掩码后表格样本中的各个所述字段，通过所述第一特征提取层基于所述字段对应的类型，确定所述字段的第一嵌入向量；通过所述第二特征提取层基于所述字段对应的所述目标字段值，确定所述字段的第二嵌入向量；根据所述字段对应的所述第一嵌入向量和所述第二嵌入向量，确定所述字段对应的第三嵌入向量；根据所述掩码后表格样本中所有字段对应的第三嵌入向量，确定所述第一嵌入向量序列。4.根据权利要求3所述的基于人工智能的任务预测方法，其特征在于，所述通过所述第二特征提取层基于所述字段对应的所述目标字段值，确定所述字段的第二嵌入向量，包括：获取所述字段对应的所述目标字段值的数值类型；当所述目标字段值的所述数值类型为连续型数值，根据预设的多个数值区间确定所述
目标字段值对应的目标数值区间，并根据所述目标数值区间对应的第一预设嵌入向量确定所述字段对应的第二嵌入向量；当所述目标字段值的所述数值类型为离散型数值，根据所述目标字段值对应的第二预设嵌入向量确定所述字段对应的第二嵌入向量；当所述目标字段值的所述数值类型为掩码型数值，根据所述掩码型数值对应的第三预设嵌入向量确定所述字段对应的第二嵌入向量。5.根据权利要求1所述的基于人工智能的任务预测方法，其特征在于，所述根据所述掩码后表格样本对应的所述语义向量序列、所述第一表格样本和所述掩...

【专利技术属性】
技术研发人员：陆凯，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人