数据分析方法、装置、计算设备和系统制造方法及图纸

技术编号:35253228 阅读:20 留言:0更新日期:2022-10-19 10:08
一种数据分析方法、装置、计算设备和系统,其中方法包括:获取待预测样本,待预测样本包括多个字段;根据待预测样本中的关键字段提取第一关联特征,将第一关联特征与多个字段中每个字段对应的单位特征,输入至第一机器学习模型,得到分析结果,其中,关键字段包括根据先验知识从待预测样本的多个字段中确定的至少一个字段,先验知识包括用户总结的用于辅助数据分析的信息,第一关联特征包括一种或多种组合特征。根据用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练,并用训练好的机器学习模型进行数据分析,能够提升数据分析结果的合理性与准确性。结果的合理性与准确性。结果的合理性与准确性。

【技术实现步骤摘要】
数据分析方法、装置、计算设备和系统


[0001]本申请涉及计算机
,尤其涉及一种数据分析方法、装置、计算设备和系统。

技术介绍

[0002]机器学习技术在越来越多的领域为数据分析提供强大的技术上支撑,自动机器学习系统通过将机器学习的步骤标准化,能够减少通过机器学习技术进行数据分析时对机器学习专家的依赖,但是当前自动机器学习系统只能根据样本数据通过反复试错的方式,从样本数据的众多特征中筛选出重要的单位特征,再根据筛选出的单位特征生成组合特征,进而对机器学习模型进行训练,这种方法效率低下,在样本数据出现变化时需要重新进行筛选,不能够及时更新模型,难以应对快速变化的数据模式。

技术实现思路

[0003]本申请实施例公开了一种数据分析方法、装置、计算设备和系统,通过用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练,能够提升模型训练的效率以及预测的合理性与准确性。
[0004]第一方面,本申请提供数据分析方法,包括:数据分析系统获取待预测样本,该待预测样本包括多个字段;根据待预测样本中的关键字段提取包括一种或多种组合特征的第一关联特征,将第一关联特征与上述多个字段中每个字段对应的单位特征,输入至第一机器学习模型,得到分析结果,其中,关键字段包括根据先验知识从待预测样本的多个字段中确定的至少一个字段,先验知识包括用户总结的用于辅助进行数据分析的信息。
[0005]通过用户提供的与数据分析目的相关的先验知识提取结构化数据中的关键字段(关键单位特征),并根据关键字段生成组合特征训练机器学习模型进而用于进行数据分析,能够提升数据分析结果的合理性。同时,本申请中的机器学习模型是根据用户输入的先验知识训练得到的,能够随时加入或者更改用户的先验知识,当业务模式发生变化导致原本提取的关键单位特征不适合,进而导致模型性能降低时,能够及时获取用户新总结的先验知识并应用到模型训练与数据分析中,而不需要积累一定的样本量之后再重新确定关键单位特征对机器学习模型进行训练,能够使模型拥有更好的时效性,应对快速变化的场景,提高机器学习模型的性能。
[0006]在一种具体的实现方式中,数据分析系统在获取待预测样本之前,还包括:获取训练样本,该训练样本包括所述多个字段;根据训练样本中的关键字段提取包括上述一种或多种组合特征的第二关联特征;将第二关联特征、训练样本中每个字段对应的单位特征与训练样本对应的标签数据,输入至第二机器学习模型,得到上述第一机器学习模型,其中,第二机器学习模型是在当前应用场景下没有训练好的,未达到收敛条件的机器学习模型,第一机器学习模型是训练好的机器学习模型。
[0007]通过在机器学习训练的过程中将用户提供的与数据分析目的相关的先验知识融
入机器学习模型,能够根据用户的先验知识提取出结构化数据中的关键字段,并根据关键字段生成组合特征,能够避免通过遍历单位特征生成组合特征,提高机器学习模型的训练效率,通过用户提供的与数据分析目的相关的先验知识对机器学习模型进行训练,能够提升模型预测的合理性。另外,本申请能够随时加入或者更改用户的先验知识,当业务模式发生变化导致原本提取的关键单位特征不适合导致模型性能降低时,能够及时获取用户新总结的先验知识并应用到模型训练与数据分析中,而不需要积累一定的样本量之后再重新确定关键单位特征对机器学习模型进行训练,能够使模型拥有更好的时效性,应对快速变化的场景,提高机器学习模型的性能与应用场景。
[0008]在另一种具体的实现方式中,上述关键字段的获取方法包括:获取上述先验知识,确定先验知识中的至少一个实体词;确定至少一个实体词中每个实体词在训练样本的多个字段中关联的字段,得到上述关键字段。
[0009]用户能够通过文字输入或者语音输入等方式输入与分析目相关的先验知识的自然语言描述,然后根据分词方法得到先验知识中的一个或者多个实体词,然后根据预设算法,例如计算两个词对应的词向量之间的余弦值,确定与每个实体词关联的字段,因为先验知识与数据分析目的相关,因此通过先验知识在训练样本字段中找到的关键字段与数据分析目的相关性相比于其他字段更加紧密,根据关键字段训练的模型的分析结果也更具合理性。
[0010]在另一种具体的实现方式中,上述确定至少一个实体词中每个实体词在训练样本的多个字段中关联的字段,包括:获取用户输入的对第一字段的字段描述,确定字段描述中与第一字段关联的至少一个关键词,第一字段为训练样本包括的多个字段中的任意一个;根据第一字段对应的第一词向量以及至少一个关键词各自对应的词向量,确定第一字段对应的第二词向量;根据所述每个实体词对应的词向量与所述训练样本的多个字段中每个字段对应的第二词向量,确定所述每个实体词在所述训练样本的多个字段中关联的字段。
[0011]数据分析系统接收用户为训练样本中的一个字段输入的与该字段相关的字段描述,然后根据从字段描述中提取与该字段相关的关键字,进而根据关键词对应的词向量以及字段本身的词向量进行计算得到该字段最终的词向量,然后根据先验知识中的实体词向量与训练样本中每个字段对应的最终的词向量进行计算,通过根据用户的字段描述得到的字段的词向量,能够更加准确的找出与实体词相关的字段。
[0012]在另一种具体的实现方式中,上述根据第一字段对应的第一词向量以及至少一个关键词各自对应的词向量,确定第一字段对应的第二词向量,包括:根据第一字段对应的第一词向量、第一字段的一个或多个属性值各自对应的词向量以及至少一个关键词对应的词向量,确定第一字段对应的第二词向量。
[0013]结构化数据中每个字段包括一个或者多个属性值,根据从字段描述中提取与该字段相关的关键字、该字段的属性值等得到该字段最终的词向量,然后通过根据上述方法得到的字段的词向量,能够更加准确的找出与实体词相关的字段。
[0014]在另一种具体的实现方式中,所述确定至少一个实体词中每个实体词在训练样本的多个字段中关联的字段,得到所述关键字段,包括:
[0015]在用户界面显示至少一个实体词中每个实体词在训练样本的多个字段中关联的字段;
[0016]接收用户输入的第一实体词在训练样本的多个字段中关联的至少一个字段,第一实体词为所述至少一个实体词中的任意一个;
[0017]根据每个实体词在训练样本的多个字段中关联的字段以及用户输入的第一实体词在训练样本的多个字段中关联的至少一个字段,得到上述关键字段。
[0018]在数据分析系统在根据用户的先验知识匹配到每个实体词关联的字段后,能够在用户界面上显示匹配结果,使用户能够根据经验为每个实体词指定增加关联的字段,例如在部分或者全部的实体词没有对应关联的字段时,能够通过用户为实体词指定关联的字段,以得到关键字段。
[0019]在另一种具体的实现方式中,上述方法还包括:通过所述用户界面显示所述训练样本中多个字段的重要程度;和/或,通过所述用户界面显示所述关键字段。在数据分析系统在根据用户的先验知识匹配到每个实体词关联的字段后,能够在用户界面上显示匹配结果,使用户能够根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括:获取待预测样本,所述待预测样本包括多个字段;根据所述待预测样本中的关键字段提取第一关联特征,所述关键字段包括根据先验知识从所述待预测样本的多个字段中确定的至少一个字段,所述先验知识包括用户总结的用于辅助数据分析的信息,所述第一关联特征包括一种或多种组合特征;将所述第一关联特征与所述多个字段中每个字段对应的单位特征,输入至第一机器学习模型,得到分析结果。2.根据权利要求1所述的方法,其特征在于,所述获取待预测样本之前,还包括:获取训练样本,所述训练样本包括所述多个字段;根据所述训练样本中的所述关键字段提取第二关联特征,所述第二关联特征包括所述一种或多种组合特征;将所述第二关联特征、所述训练样本中每个字段对应的单位特征与所述训练样本对应的标签数据,输入至第二机器学习模型,得到所述第一机器学习模型,所述第二机器学习模型为未训练好的机器学习模型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述先验知识,确定所述先验知识中的至少一个实体词;确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段,得到所述关键字段。4.根据权利要求3所述的方法,其特征在于,所述确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段,包括:获取所述用户输入的对第一字段的字段描述,确定所述字段描述中与所述第一字段关联的至少一个关键词,所述第一字段为所述训练样本包括的多个字段中的任意一个;根据所述第一字段对应的词向量以及所述至少一个关键词各自对应的词向量,确定所述第一字段对应的词向量;根据所述每个实体词对应的词向量与所述训练样本的多个字段中每个字段对应的词向量,确定所述每个实体词在所述训练样本的多个字段中关联的字段。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一字段对应的词向量以及所述至少一个关键词各自对应的词向量,确定所述第一字段对应的词向量,包括:根据所述第一字段对应的词向量、所述第一字段的一个或多个属性值各自对应的词向量以及所述至少一个关键词对应的词向量,确定所述第一字段对应的词向量。6.根据权利要求4或5所述的方法,其特征在于,所述确定所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段,得到所述关键字段,包括:在所述用户界面显示所述至少一个实体词中每个实体词在所述训练样本的多个字段中关联的字段;接收所述用户输入的第一实体词在所述训练样本的多个字段中关联的至少一个字段,所述第一实体词为所述至少一个实体词中的任意一个;根据每个实体词在所述训练样本的多个字段中关联的字段以及所述用户输入的第一实体词在所述训练样本的多个字段中关联的至少一个字段,得到所述关键字段。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过所述用户界面显示所述训练样本中多个字段的重要程度;和/或,通过所述用户界面显示所述关键字段。8.一种数据分析装置,其特征在于,包括:通信单元,用于获取待预测样本,所述待预测样本包括多个字段;处理单元,用于根据所述待预测样本中的关键字段提取第一关联特征,所述关键字段包括根据先验知识从所述待预测样本的多个字段中确定的至少一个字段,所述先验知识包括用户总结的用于辅助数据分析的信息,所述第一关联特征包括一种或多种组合特征;将所述第一关联特征与所述多个...

【专利技术属性】
技术研发人员:王宗佐黄宇海王新志
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1