System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据领域,具体而言,涉及一种数据降噪方法、装置、存储介质及电子设备。
技术介绍
1、在当今数字化时代,产生了大量的数据,以及与数据推送技术相关的数据。数据挖掘和机器学习技术的快速发展使得基于用户历史数据制定精准数据推送策略。然而,获取的历史数据的质量问题,尤其是存在的噪声数据,对数据推送效果构成了严重挑战。噪声数据的存在可能导致数据分析不准确、推送决策失误以及用户行为洞察力的减弱,进而影响了精准数据推送策略的制定和实施效果。为了解决这些挑战,数据推送数据的降噪技术显得尤为重要。
2、相关技术在数据推送数据的降噪过程中,忽略了同一个用户可能受到不同推送策略的复合影响。当用户的行为发生变化时,很难准确归因于哪种推送策略,这使得模型在训练过程中受到干扰,难以为用户提供精准的数据推送内容。相关技术也忽视了噪声数据产生的根本原因,在实际应用中降噪效果有限。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本专利技术实施例提供了一种数据降噪方法、装置、存储介质及电子设备,以至少解决相关技术中存在多种策略产生的噪声数据,导致行为数据中降噪能力不理想的技术问题。
2、根据本专利技术实施例的一个方面,提供了一种数据降噪方法,包括:获取多个初始行为数据,以及所述多个初始行为数据分别对应的数据来源信息,其中,所述多个初始行为数据分别用于指示对应账户发生预定形式的转化行为的数据;确定所述多个初始行为数据分别对应的第一噪声概率,其中,所
3、可选地,所述确定所述多个初始行为数据分别对应的第一噪声概率,包括:获取基于所述多个初始行为数据得到的训练集数据;在所述训练集数据中选取验证集数据;将所述验证集数据输入预定验证模型进行处理,得到处理结果,以及所述处理结果对应的奖惩评分,其中,所述预定验证模型的应用场景与所述多个数据推送策略分别对应的应用场景相匹配;基于所述奖惩评分,对初始噪声判别器进行更新,得到目标噪声判别器;采用所述目标噪声判别器,确定所述多个初始行为数据分别对应的第一噪声概率。
4、可选地,所述获取基于所述多个初始行为数据得到的训练集数据,包括:基于所述多个初始行为数据分别对应的数据来源信息指示的账户粒度,对所述多个初始行为数据进行分层采样,得到多个分层采样数据;采用所述初始噪声判别器,确定所述多个分层采样数据分别对应的第二噪声概率;基于所述多个分层采样数据分别对应的第二噪声概率,对所述多个分层采样数据进行筛选,得到训练集数据。
5、可选地,所述基于所述多个分层采样数据分别对应的第二噪声概率,对所述多个分层采样数据进行筛选,得到训练集数据,包括:基于所述多个分层采样数据分别对应的第二噪声概率,采用伯努利采样进行处理,确定所述多个分层采样数据分别对应的估计采样结果;基于所述多个分层采样数据分别对应的估计采样结果,对所述多个分层采样数据进行筛选,得到所述训练集数据。
6、可选地,所述基于所述奖惩评分,对所述初始噪声判别器进行更新,得到目标噪声判别器,包括:在所述奖惩评分优于预定的基准线的情况下,采用预定奖励方式,对所述初始噪声判别器进行更新,得到所述目标噪声判别器,其中,所述预定奖励方式为提高所述初始噪声判别器输出的联合概率,所述联合概率为所述训练集数据是否被采样的概率;在所述奖惩评分劣于基准线的情况下,采用预定惩罚方式,对所述初始噪声判别器进行更新,得到所述目标噪声判别器,其中,所述预定惩罚方式为降低所述联合概率。
7、可选地,所述基于所述多个初始行为数据分别对应的数据来源信息和第一噪声概率,对所述多个初始行为数据进行噪声过滤,得到目标行为数据,包括:基于所述多个初始行为数据分别对应的数据来源信息指示的账户粒度,以及行为数据产生的时间窗口,对所述多个初始行为数据进行分组,得到分组结果;按照所述分组结果,以及所述多个初始行为数据分别对应的第一噪声概率,同组的初始行为数据进行排序,得到同组排序结果;基于所述同组排序结果,对第一噪声概率大于预定概率阈值的初始行为数据进行剔除处理,得到所述目标行为数据。
8、可选地,所述数据来源信息至少包括:账户粒度,以及行为数据产生的时间窗口。
9、根据本专利技术实施例的另一方面,提供了一种数据降噪装置,包括:数据获取模块,用于获取多个初始行为数据,以及所述多个初始行为数据分别对应的数据来源信息,其中,所述多个初始行为数据分别用于指示对应账户发生预定形式的转化行为的数据;概率确定模块,用于确定所述多个初始行为数据分别对应的第一噪声概率,其中,所述第一噪声概率表示对应初始行为数据为受到多个数据推送策略影响而产生的行为数据的概率,所述多个数据推送策略用于控制向对应账户进行数据推送,使得对应账户发生所述预定形式的转化行为;降噪模块,用于基于所述多个初始行为数据分别对应的数据来源信息和第一噪声概率,对所述多个初始行为数据进行噪声过滤,得到目标行为数据。
10、根据本专利技术实施例的另一方面,提供了一种非易失性存储介质,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行任意一项所述的数据降噪方法。
11、根据本专利技术实施例的另一方面,提供了一种电子设备,包括:一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现任意一项所述的数据降噪方法。
12、在本专利技术实施例中,通过获取多个初始行为数据,以及所述多个初始行为数据分别对应的数据来源信息,其中,所述多个初始行为数据分别用于指示对应账户发生预定形式的转化行为的数据;确定所述多个初始行为数据分别对应的第一噪声概率,其中,所述第一噪声概率表示对应初始行为数据为受到多个数据推送策略影响而产生的行为数据的概率,所述多个数据推送策略用于控制向对应账户进行数据推送,使得对应账户发生所述预定形式的转化行为;基于所述多个初始行为数据分别对应的数据来源信息和第一噪声概率,对所述多个初始行为数据进行噪声过滤,得到目标行为数据。达到了利用数据来源信息为优化降噪效果提供支持的目的,实现了去除多种策略共同影响导致行为数据中存在数据噪声的技术效果,进而解决了相关技术中存在多种策略产生的噪声数据,导致行为数据中降噪能力不理想的技术问题。
本文档来自技高网...【技术保护点】
1.一种数据降噪方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个初始行为数据分别对应的第一噪声概率,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取基于所述多个初始行为数据得到的训练集数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个分层采样数据分别对应的第二噪声概率,对所述多个分层采样数据进行筛选,得到训练集数据,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于所述奖惩评分,对所述初始噪声判别器进行更新,得到目标噪声判别器,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个初始行为数据分别对应的数据来源信息和第一噪声概率,对所述多个初始行为数据进行噪声过滤,得到目标行为数据,包括:
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述数据来源信息至少包括:账户粒度,以及行为数据产生的时间窗口。
8.一种数据降噪装置,其特征在于,包括:
9.一种非易失性存储介质,其特征在于,所述非易失性
10.一种电子设备,其特征在于,包括:一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的数据降噪方法。
...【技术特征摘要】
1.一种数据降噪方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个初始行为数据分别对应的第一噪声概率,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取基于所述多个初始行为数据得到的训练集数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个分层采样数据分别对应的第二噪声概率,对所述多个分层采样数据进行筛选,得到训练集数据,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于所述奖惩评分,对所述初始噪声判别器进行更新,得到目标噪声判别器,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个初始行为数据分别对应的数据来源信...
【专利技术属性】
技术研发人员:张正奇,
申请(专利权)人:天翼电子商务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。