本发明专利技术涉及数据处理技术领域,尤其涉及一种模型训练用标签数据的校正方法、装置、设备及介质。该方法获取实时标签表和离线标签数据,在检测到类型为可实时化类型且当前时间点达到预设时间点时,计算离线标签数据与实时标签表中每个实时标签数据的相似度,若最大相似度满足预设校正条件,校正对应实时标签数据,得到校正标签数据并更新实时标签表采用离线标签数据对实时标签数据进行校正,在保证实时标签数据时效性的同时,提高了实时标签数据的准确性。准确性。准确性。
【技术实现步骤摘要】
模型训练用标签数据的校正方法、装置、设备及介质
[0001]本专利技术涉及数据处理
,尤其涉及一种模型训练用标签数据的校正方法、装置、设备及介质。
技术介绍
[0002]目前,随着大数据技术和人工智能技术的发展,模型标签数据可分为实时标签数据和离线标签数据,离线标签数据通常是指T+1时效的标签数据,即第T天采集的标签数据需要在T+1天才能应用,采用模型标签数据为人工智能模型动态地提供标签参数,可有效提高人工智能模型的准确率。
[0003]然而,采用离线标签数据虽然能够确保模型的准确性,但其时效为T+1时效,时效较长,会导致用户体验较差。而采用实时标签数据时效性高,但在数据量较大时,会出现实时标签数据丢失或者不可用的情况,准确性较低。因此,如何在标签数据时效性较高的情况下,提高标签数据的准确性成为了亟需解决的问题。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供了一种模型训练用标签数据的校正方法、装置、设备及介质,以解决标签数据时效性较高的情况下,标签数据的准确性较低的问题。
[0005]第一方面,本专利技术实施例提供一种模型训练用标签数据的校正方法,所述校正方法包括:
[0006]获取实时标签表和离线标签数据,所述实时标签表包括至少一个实时标签数据;
[0007]检测所述离线标签数据的类型,在检测到所述类型为可实时化类型时,判断当前时间点是否达到预设时间点;
[0008]若所述当前时间点达到所述预设时间点,则计算所述离线标签数据与所述实时标签表中的每个实时标签数据的相似度,并检测最大相似度是否满足预设校正条件;
[0009]若所述最大相似度满足所述预设校正条件,则根据所述离线标签数据校正对应最大相似度的实时标签数据,得到校正标签数据,并采用所述校正标签数据更新所述实时标签表。
[0010]第二方面,本专利技术实施例提供一种模型训练用标签数据的校正装置,所述校正装置包括:
[0011]数据采集模块,用于获取实时标签表和离线标签数据,所述实时标签表包括至少一个实时标签数据;
[0012]时间点检测模块,用于检测所述离线标签数据的类型,在检测到所述类型为可实时化类型时,判断当前时间点是否达到预设时间点;
[0013]相似度计算模块,用于若所述当前时间点达到所述预设时间点,则计算所述离线标签数据与所述实时标签表中的每个实时标签数据的相似度,并检测最大相似度是否满足预设校正条件;
[0014]数据校正模块,用于若所述最大相似度满足所述预设校正条件,则根据所述离线标签数据校正对应最大相似度的实时标签数据,得到校正标签数据,并采用所述校正标签数据更新所述实时标签表。
[0015]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的校正方法。
[0016]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的校正方法。
[0017]本专利技术实施例与现有技术相比存在的有益效果是:
[0018]获取实时标签表和离线标签数据,实时标签表包括至少一个实时标签数据,检测离线标签数据的类型,在检测到类型为可实时化类型时,判断当前时间点是否达到预设时间点,若当前时间点达到预设时间点,则计算离线标签数据与实时标签表中的每个实时标签数据的相似度,并检测最大相似度是否满足预设校正条件,若最大相似度满足预设校正条件,则根据离线标签数据校正对应最大相似度的实时标签数据,得到校正标签数据,并采用校正标签数据更新实时标签表,采用可实时化类型的离线标签数据对实时标签数据进行校正,在保证实时标签数据时效性的同时,提高了实时标签数据的准确性。
附图说明
[0019]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例一提供的一种模型训练用标签数据的校正方法的一应用环境示意图;
[0021]图2是本专利技术实施例一提供的一种模型训练用标签数据的校正方法的流程示意图;
[0022]图3是本专利技术实施例二提供的一种模型训练用标签数据的校正方法的流程示意图;
[0023]图4是本专利技术实施例三提供的一种模型训练用标签数据的校正装置的结构示意图;
[0024]图5是本专利技术实施例四提供的一种计算机设备的结构示意图。
具体实施方式
[0025]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0026]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、
步骤、操作、元素、组件和/或其集合的存在或添加。
[0027]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0028]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0029]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0030]在本专利技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本专利技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0031]应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。
[0032]为本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型训练用标签数据的校正方法,其特征在于,所述方法包括:获取实时标签表和离线标签数据,所述实时标签表包括至少一个实时标签数据;检测所述离线标签数据的类型,在检测到所述类型为可实时化类型时,判断当前时间点是否达到预设时间点;若所述当前时间点达到所述预设时间点,则计算所述离线标签数据与所述实时标签表中的每个实时标签数据的相似度,并检测最大相似度是否满足预设校正条件;若所述最大相似度满足所述预设校正条件,则根据所述离线标签数据校正对应最大相似度的实时标签数据,得到校正标签数据,并采用所述校正标签数据更新所述实时标签表。2.根据权利要求1所述的校正方法,其特征在于,所述实时标签数据对应于实时时间戳;在所述当前时间点达到所述预设时间点之后,还包括:将所述离线标签数据配置为预设时间戳;检测所述实时标签表中的每个实时标签数据对应的实时时间戳是否小于所述预设时间戳;相应地,所述计算所述离线标签数据与所述实时标签表中的每个实时标签数据的相似度包括:确定对应实时时间戳小于所述预设时间戳的实时标签数据为目标标签数据;计算所述离线标签数据与所述实时标签表中的每个目标标签数据的相似度。3.根据权利要求2所述的校正方法,其特征在于,所述采用所述校正标签数据更新所述实时标签表包括:将所述校正标签数据配置为预设时间戳;根据所述预设时间戳,采用所述校正标签数据更新所述实时标签表。4.根据权利要求1所述的校正方法,其特征在于,所述根据所述离线标签数据校正对应最大相似度的实时标签数据,得到校正标签数据包括:将所述对应最大相似度的实时标签数据和所述离线标签数据输入训练好的校正模型中的编码器提取特征,得到中间表征;对所述中间表征进行高斯采样,将采样结果输入训练好的校正模型中的解码器进行重构,确定重构结果为所述校正标签数据。5.根据权利要求4所述的校正方法,其特征在于,以离线样本数据和实时样本数据作为所述校正模型训练的训练样本,以校正损失函数作为校正模型训练的损失函数;所述校正模型的训练过程包括:将所述离线样本数据和所述实时样本数据输入所述编码器进行特征提取,得到样本表征;对所述样本表征进行高斯采样,得到样本采样结果,并将所述样本采样结果输入所述解码器进行重构,得到校正样本数据;根据校正样本数据、所述实时样本数据和所述离线样本数据计算所述校正损失函数,以所述...
【专利技术属性】
技术研发人员:李培林,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。