System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、电子设备以及存储介质制造方法及图纸_技高网

数据处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:40032392 阅读:13 留言:0更新日期:2024-01-16 18:26
本公开涉及机器学习领域,具体关于一种数据处理方法、装置、电子设备以及存储介质。根据本公开的数据处理方法包括:获取预处理数据,所述预处理数据包括多个用户特征;根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,所述特征重要度用于表征所述用户特征对预测任务的影响程度;根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,所述目标用户特征用于构建所述预测任务模型训练的输入数据。本公开提供的实施方式实现了基于特征重要度的自动的特征筛选,无需通过人工确定筛选范围,解决了人工筛选用户特征成本高、效果差的问题。

【技术实现步骤摘要】

本公开涉及机器学习领域,尤其涉及一种数据处理方法、装置、电子设备以及存储介质


技术介绍

1、近年来,随着互联网用户数量和用户数据的不断增长,人工智能飞速发展。机器学习作为人工智能的核心技术,在推荐系统、自然语言处理、计算机视觉等多个领域取得了令人瞩目的进展。

2、深度学习是机器学习技术的重要分支,依靠深度学习模型处理海量数据。训练模型时所采用的训练数据直接影响到训练得到的模型质量。对于模型训练的输入数据中的特征,大部分由人工筛选选取,受人工处理能力限制,筛选得到的数据并非最优选择,且效率低下。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种数据处理方法、装置、电子设备以及存储介质。基于特征重要度自动筛选用户特征作为预测任务模型训练的输入数据,解决了人工筛选用户特征成本高、效果差的问题。

2、根据本公开实施例的第一方面,提供一种数据处理方法,包括:

3、获取预处理数据,所述预处理数据包括多个用户特征;

4、根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,所述特征重要度用于表征所述用户特征对预测任务的影响程度;

5、根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,所述目标用户特征用于构建所述预测任务模型训练的输入数据。

6、在一些实施例中,根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,包括:

7、分析所述预处理数据中各个用户特征相对于所述预测任务的相关性;

8、根据所述相关性,确定每个用户特征的所述特征重要度。

9、在一些实施例中,所述根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,包括:

10、按照所述特征重要度,对所述预处理数据中的用户特征进行排序,获取排序队列;

11、根据所述排序队列,分析特征重要度变化,生成特征重要度变化曲线,所述特征重要度变化曲线表征了前n个用户特征的特征重要度之和占总特征重要度的比例;

12、选择所述特征重要度变化曲线符合预设的变化减缓条件的位置作为标记点;

13、根据所述标记点,在所述排序队列中筛选部分用户特征作为所述目标用户特征。

14、在一些实施例中,所述根据所述标记点,在所述排序队列中筛选部分用户特征作为所述目标用户特征,包括:

15、以所述标记点为中点,根据预设的筛选范围参数确定区间步长,得到筛选区间;

16、将所述筛选区间中的第一筛选门限的用户特征筛选为所述目标用户特征。

17、在一些实施例中,所述方法还包括:

18、通过所述输入数据训练所述预测任务的预测任务模型,所述输入数据包括所述目标用户特征;

19、根据所述预测任务模型的预测准确性,获取第二筛选门限;

20、在所述筛选区间中按照所述第二筛选门限筛选用户特征作为所述目标用户特征,以构建下一次预测任务模型训练的输入数据。

21、在一些实施例中,按照所述特征重要度由高到低的顺序选择所述用户特征作为所述目标用户特征。

22、根据本公开实施例的第二方面,提供一种数据处理装置,包括:

23、预处理模块,用于获取预处理数据,所述预处理数据包括多个用户特征;

24、特征重要度获取模块,用于根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,所述特征重要度用于表征所述用户特征对预测任务的影响程度;

25、特征筛选模块,用于根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,所述目标用户特征用于构建所述预测任务模型训练的输入数据。

26、在一些实施例中,所述特征重要度获取模块,包括:

27、相关性分析子模块,用于分析所述预处理数据中各个用户特征相对于所述预测任务的相关性;

28、重要度评价子模块,用于根据所述相关性,确定每个用户特征的所述特征重要度。

29、在一些实施例中,所述特征筛选模块,包括:

30、排序子模块,用于按照所述特征重要度,对所述预处理数据中的用户特征进行排序,获取排序队列;

31、曲线生成模块,用于根据所述排序队列,分析特征重要度变化,生成特征重要度变化曲线,所述特征重要度变化曲线表征了前n个用户特征的特征重要度之和占总特征重要度的比例;

32、标记点选择模块,用于选择所述特征重要度变化曲线符合预设的变化减缓条件的位置作为标记点;

33、特征选择子模块,用于根据所述标记点,在所述排序队列中筛选部分用户特征作为所述目标用户特征。

34、在一些实施例中,所述特征选择子模块,包括:

35、区间确定子模块,用于以所述标记点为中点,根据预设的筛选范围参数确定区间步长,得到筛选区间;

36、选择执行子模块,用于将所述筛选区间中的第一筛选门限的用户特征筛选为所述目标用户特征。

37、根据本公开实施例的第三方面,提供一种电子设备,包括:

38、处理器;

39、用于存储处理器可执行指令的存储器;

40、其中,所述处理器被配置为:

41、获取预处理数据,所述预处理数据包括多个用户特征;

42、根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,所述特征重要度用于表征所述用户特征对预测任务的影响程度;

43、根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,所述目标用户特征用于构建所述预测任务模型训练的输入数据。

44、根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种数据处理方法,所述方法包括:

45、获取预处理数据,所述预处理数据包括多个用户特征;

46、根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,所述特征重要度用于表征所述用户特征对预测任务的影响程度;

47、根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,所述目标用户特征用于构建所述预测任务模型训练的输入数据。

48、本公开的实施例提供的技术方案可以包括以下有益效果:获取包括多个用户特征的预处理数据,根据预处理数据,确定预处理数据中的每个用户特征的特征重要度,并根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,用于构建所述预测任务模型训练的输入数据。实现了基于特征重要度的自动的特征筛选,无需通过人工确定筛选范围,解决了人工筛选用户特征成本高、效果差的问题。

49、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,包括:

3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,包括:

4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述标记点,在所述排序队列中筛选部分用户特征作为所述目标用户特征,包括:

5.根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:

6.根据权利要求4或5所述的数据处理方法,其特征在于,按照所述特征重要度由高到低的顺序选择所述用户特征作为所述目标用户特征。

7.一种数据处理装置,其特征在于,包括:

8.根据权利要求7所述的数据处理装置,其特征在于,所述特征筛选模块包括:

9.一种电子设备,其特征在于,包括:

10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种数据处理方法,所述方法包括:

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,根据所述预处理数据,确定预处理数据中的每个用户特征的特征重要度,包括:

3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述特征重要度,对所述预处理数据进行筛选,得到筛选后的目标用户特征,包括:

4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述标记点,在所述排序队列中筛选部分用户特征作为所述目标用户特征,包括:

5.根据权利要求4所述的数据处理方...

【专利技术属性】
技术研发人员:朴泰任
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1