本发明专利技术公开一种基于统计结构化本地差分隐私的理财产品推荐方法及系统。包括:在用户端获取原始特征,原始特征根据取值类型分为连续值特征和离散分类特征,并按取值类型对原始特征进行预处理,分析确定特征筛选标准,再对预处理后的原始特征进行筛选;对筛选后的特征进行分群处理得到若干样本分群,对不同的样本分群添加对应的结构化差分噪声;构建理财产品推荐模型,将添加结构化差分噪声后的样本集划分为训练集与测试集,利用训练集训练推荐模型,将测试集输入训练好的推荐模型进行推理,得到推荐因子。本发明专利技术方法考虑离散分类特征,基于统计结构化的本地差分隐私方法,定量化隐私预算,保护理财用户隐私的基础上,提高推荐因子的计算准确度。因子的计算准确度。因子的计算准确度。
【技术实现步骤摘要】
基于统计结构化本地差分隐私的理财产品推荐方法及系统
[0001]本专利技术涉及推荐领域和隐私保护领域,尤其涉及一种基于统计结构化本地差分隐私的理财产品推荐方法及系统。
技术介绍
[0002]随着物联网、人工智能和大数据等科技成果在互联网等行业的应用发展,数据本身成为一种隐形资源,不断推动技术变革和业务创新。尤其是人工智能技术的应用,更离不开全面、足量的大数据用于机器学习和模型优化。但是若未妥善处理数据,容易发生“隐私暴露“问题。互联网等行业数据隐私保护问题在行业应用中备受关注。本地差分隐私是在数据离开数据主体控制之前加入随机噪声,确保公开输出结果不因某个体的存在与否而产生明显变化,并定量化隐私泄露程度的新型隐私保护模型。
[0003]本地差分隐私技术在推荐网络和社交系统等领域有着丰富的应用价值,其与机器学习的结合更是当下的研究热点。但是现有技术中,差分隐私技术主要针对连续值变量,未考虑离散变量、也未考虑特征的统计知识,导致现有的差分隐私的效果不理想。
技术实现思路
[0004]针对现有技术不足,本专利技术提出了一种基于统计结构化本地差分隐私的理财产品推荐方法及系统。
[0005]为解决上述技术问题,本专利技术的技术方案包括:本专利技术实施例的第一方面提出了一种基于统计结构化本地差分隐私的理财产品推荐方法,所述方法具体包括以下子步骤:
[0006]步骤S1,在用户端获取原始用户属性特征,所述原始用户属性特征根据取值类型分为连续值特征和离散分类特征,并按取值类型对原始用户属性特征进行预处理,分析确定特征筛选标准,再对预处理后的原始用户属性特征进行筛选;
[0007]步骤S2,对步骤S1筛选后的用户属性特征进行分群处理得到若干样本分群,对不同的样本分群添加对应的结构化差分噪声,得到样本集;
[0008]步骤S3,构建理财产品推荐模型,将步骤S2得到的样本集划分为训练集与测试集,利用训练集训练推荐模型,将测试集输入训练好的推荐模型进行推理,得到推荐因子。
[0009]本专利技术实施例的第二方面提出了一种基于统计结构化本地差分隐私的理财产品推荐系统,用于上述的基于统计结构化本地差分隐私的理财产品推荐方法,所述系统包括:
[0010]数据预处理模块,用于在用户端获取原始特征,所述原始特征根据取值类型分为连续值特征和离散分类特征,并按取值类型对原始特征进行预处理,分析确定特征筛选标准,再对预处理后的原始特征进行筛选;
[0011]结构化差分噪声添加模块,用于对筛选后的特征进行分群处理得到若干样本分群,对不同的样本分群添加对应的结构化差分噪声;
[0012]推荐预测模块,基于添加结构化差分噪声后的样本通过理财产品推荐模型预测得到推荐因子。
[0013]本专利技术实施例的第三方面提出了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于统计结构化本地差分隐私的理财产品推荐方法。
[0014]本专利技术实施例的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于统计结构化本地差分隐私的理财产品推荐方法。
[0015]与现有技术相比,本专利技术的有益效果为:本专利技术提出了一种基于统计结构化本地差分隐私的理财产品推荐方法及系统,在考虑原始数据连续值变量的基础上,进一步考虑离散变量。并且考虑特征的统计知识,分析特征间独立性和耦合性,以建立筛选标准,科学化地筛选可添加结构化差分噪声的特征维度。本专利技术方法还利用标签、统计结构化或监督学习等,对样本分群,对不同分群的样本集合,并使用基于同集合样本特征值互换、同集合样本分布抽样在内的随机扰乱方式,添加结构化差分噪声。在理财产品推荐模型的推理过程中,能够在充分保护用户隐私的同时,提升了推荐因子的计算准确度。
附图说明
[0016]图1为本专利技术提出的一种基于统计结构化本地差分隐私的理财产品推荐系统的示意图;
[0017]图2为特征筛选的示意图;
[0018]图3为添加结构化差分噪声的示意图;
[0019]图4为理财产品推荐模型的示意图;
[0020]图5为一种电子设备的示意图。
具体实施方式
[0021]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0022]下面结合附图,对本专利技术进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0023]如图2所示,本专利技术提出了一种基于统计结构化本地差分隐私的理财产品推荐方法,所述方法包括以下子步骤:
[0024]步骤S1,在理财用户端获取原始用户属性特征,所述原始用户属性特征根据取值类型分为连续值特征和离散分类特征,并按取值类型对原始用户属性特征进行预处理,分析确定特征筛选标准,再对预处理后的原始用户属性特征进行筛选。
[0025]所述步骤S1具体包括以下子步骤:
[0026]步骤S1.1:在用户端获取原始用户属性特征,所述原始特征根据取值类型分为连续值特征和离散分类特征。
[0027]所述原始用户属性特征包括性别、年龄、住址、学历、职业、婚姻状况、资金交易数据等。
[0028]步骤S1.2:对步骤S1.1获取的原始用户属性特征进行特征预处理,包括:将离散分类特征转化成独热特征;对独热特征进行拼接,得到独热组合特征;对连续值特征,基于特征空间中的非线性规律,可将两个或多个连续值特征相乘进行编码得到连续值组合特征。
[0029]步骤S1.3:对步骤S1.2预处理后的原始用户属性特征进行分析,确定特征筛选标准。
[0030]具体地,在确定特征筛选标准的过程中,一般而言,添加结构化噪声的特征,需要相互独立,和其他特征交叉耦合较少,即添加结构化噪声的特征为独立特征。反之,则称之为耦合特征。因此需要对交叉耦合特征进行识别,此处所指的交叉耦合包括高频特征组合、关键特征组合。
[0031]所述高频特征组合为两种或者多种特征的特定特征组合,会高频次出现。具体实现流程如下:首先设定高频比例经验阈值(在本实例中设置为0.95),其次统计所有样本里特征组合的出现频次,最后计算某特征组合的频次占样本总数的比值。当比值大于阈值时,即为高频特征组合。高频比例经验阈值根据实际数据情况予以设定。
[0032]所述关键特征组合为特定的特征组合出现之后,对最终的预测结果有大幅度的影响。具体地:首先计算特征重要性,其次对重要性特征进行排序,例如选取前10%特征为关键特征。特征重要性的计算有两种方法,分别为基于排列计算重要性和使用SHAP值计算重要性。
[0033]步骤S1.4:特征筛选:基于步骤S本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于统计结构化本地差分隐私的理财产品推荐方法,其特征在于,所述方法具体包括以下子步骤:步骤S1,在用户端获取原始用户属性特征,所述原始用户属性特征根据取值类型分为连续值特征和离散分类特征,并按取值类型对原始用户属性特征进行预处理,分析确定特征筛选标准,再对预处理后的原始用户属性特征进行筛选;步骤S2,对步骤S1筛选后的用户属性特征进行分群处理得到若干样本分群,对不同的样本分群添加对应的结构化差分噪声,得到样本集;步骤S3,构建理财产品推荐模型,将步骤S2得到的样本集划分为训练集与测试集,利用训练集训练推荐模型,将测试集输入训练好的推荐模型进行推理,得到推荐因子。2.根据权利要求1所述的基于统计结构化本地差分隐私的理财产品推荐方法,其特征在于,所述原始用户属性特征包括性别、年龄、住址、学历、职业、婚姻状况、资金交易数据等。3.根据权利要求1所述的基于统计结构化本地差分隐私的理财产品推荐方法,其特征在于,所述步骤S1中,按取值类型对原始特征进行预处理的过程包括:将离散分类特征转化成独热特征;对独热特征进行拼接,得到独热组合特征;对连续值特征,基于特征空间中的非线性规律,可将两个或多个连续值特征相乘进行编码得到连续值组合特征。4.根据权利要求1所述的基于统计结构化本地差分隐私的理财产品推荐方法,其特征在于,所述步骤S1中,分析确定特征筛选标准的过程包括:基于预处理后的原始特征,使用统计分析、排列分析和SHAP边缘收益分析在内的分析方法对预处理后的原始特征中的独热组合特征和/或连续值组合特征间的相关性和对理财产品推荐模型的结果贡献度进行分析,得到交叉耦合特征。5.根据权利要求4所述的基于统计结构化本地差分隐私的理财产品推荐方法,其特征在于,所述步骤S1中,对预处理后的原始特征进行筛选的过程还包括:在预处理后的原始特征中删除交叉耦合特征,以完成筛选。6.根据权利要求1所述的基于统计结构化本地差分隐私的理财产品推荐方法,其特征在于,所述步骤S2中,对步骤S1筛选后的特征进行分群处理得到若干样本分群的过程包括:基于统计结构化分群:通过对步骤S1筛选后的特征进行统计或聚类分析,基于统计或聚类结果对特征进行分群,得到样本分群;和/或,基于监督学习分群:构建监督学习模型,基于机器学习中的监督学习方法,将步骤S1筛选后的特征即样本输入至监督学习模型,监督学习模型输出分类标签预测概率,根据分类标签预测概率分布对样...
【专利技术属性】
技术研发人员:张丹丹,杨耀,苟长江,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。