数据处理方法和装置制造方法及图纸

技术编号:29923434 阅读:11 留言:0更新日期:2021-09-04 18:37
本发明专利技术公开了数据处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取数据源,对所述数据源进行清洗和处理,以筛选出用于模型训练的相关特征;对所述相关特征进行向量化,合并所有向量化的特征而作为特征向量化结果;将所述特征向量化结果划分为训练数据集和评估数据集,基于所述训练数据集中的特征向量化结果和数据标签,训练深度因子机分解模型;对深度因子机分解模型的参数进行调优,以获取参数调优模型;以及利用所述参数调优模型,进行数据处理。该实施方式有效识别商品标题中未授权品牌违规乱挂的行为,辅助商品详情页面的合规,满足业务应用。满足业务应用。满足业务应用。

【技术实现步骤摘要】
数据处理方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据处理方法和装置。

技术介绍

[0002]随着电商平台的日益繁荣,有些商家为了提高商品的曝光度,会在商品标题中输入已被授权品牌词之外的其他品牌词。对此,为了维护电商平台的商品经营秩序,避免损害同行商家的品牌权益,需要采取措施针对商品详情页信息进行合规质检。当前针对品牌乱挂违规的判别,很大程度上是基于规则性的匹配进行检测的方法,即:针对部分品牌词,通过人工维护同质品牌词数据表,以及相关类目规则的方式,基于固定匹配规则,检测有限商品、部分品牌的违规乱挂情形。另外,还存在一种使用传统机器学习模型的检测方法,通过整合多种商品属性(例如商品类目、品牌、价格等特征),使用传统的LR/xgboost等机器学习模型,识别商品标题中品牌乱挂违规情形。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:基于规则性的匹配进行检测的方法需要人工维护很多品牌表以及品牌与类目间的关联关系,不仅费时耗力,而且不利于高速增长商品数据和品牌扩展;而基于传统机器学习模型的检测方法不能很好体现特征间的交互效应以及特征的深层抽象表示,同时缺少对文本数据的语境理解,使得有些特殊情形的检测存在误判这样的问题。

技术实现思路

[0004]有鉴于此,本专利技术提供一种数据处理方法,通过对数据源进行处理并建立相关的模型,利用该模型对待处理的数据进行处理。从而能够实现在电商领域内检测商品标题中未授权品牌违规乱挂,以便有效支持大量商详信息的品牌违规乱挂判定,对商家已授权品牌予以保护。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据处理方法,其特征在于,包括:获取数据源,对所述数据源进行清洗和处理,以筛选出用于模型训练的相关特征;对所述相关特征进行向量化,合并所有向量化的特征而作为特征向量化结果;将所述特征向量化结果划分为训练数据集和评估数据集,基于所述训练数据集中的特征向量化结果和数据标签,训练深度因子机分解模型;对深度因子机分解模型的参数进行调优,以获取参数调优模型;以及利用所述参数调优模型,进行数据处理。
[0006]上述专利技术中的一个实施例具有如下优点或有益效果:因为采用使用DeepFM模型(Deep Factor Machine,深度因子机分解)代替传统机器学习模型和规则匹配方法来检测商品标题中的未授权品牌的违规乱挂行为的技术手段,从而将多种特征向量的低阶和高阶交互效应进行结合,达到能够有效识别商品标题中未授权品牌违规乱挂的行为,辅助商品详情页面的合规,满足业务应用这样的技术效果。
[0007]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0008]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0009]图1是根据本专利技术实施例的数据处理方法的主要流程的示意图;
[0010]图2是根据本专利技术实施例的数据处理方法的详细系统执行流程的示意图;
[0011]图3是根据本专利技术实施例的数据处理装置的主要模块的示意图;
[0012]图4是本专利技术实施例可以应用于其中的示例性系统架构图;
[0013]图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0014]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0015]图1是根据本专利技术实施例的数据处理方法的主要流程的示意图,是该方法的优选的流程示意图。该方法利用DeepFM模型进行数据处理,DeepFM模型是一种基于结合FM模型和深度学习网络于一体的模型算法,能够同时学习低阶和高阶特征交互效应。
[0016]本专利技术实施例的数据处理方法包括:
[0017]步骤S101:获取数据源,对所述数据源进行清洗和处理,以筛选出用于模型训练的相关特征;
[0018]步骤S102:对上述步骤S101中筛选出的相关特征进行向量化,合并所有向量化的特征而作为特征向量化结果;
[0019]步骤S103:将步骤S102中的特征向量化结果划分为训练数据集和评估数据集,基于该训练数据集中的特征向量化结果和数据标签,训练DeepFM模型;
[0020]步骤S104:对步骤S103中训练的DeepFM模型的参数进行调优,以获取参数调优模型;以及
[0021]步骤S105:利用上述步骤S104中的调优的参数调优模型,进行数据处理。
[0022]本专利技术使用DeepFM模型代替传统机器学习模型和规则匹配方法来检测商品标题中的未授权品牌的违规乱挂行为,从而将多种特征向量的低阶和高阶交互效应进行结合,以达到能够有效识别商品标题中未授权品牌违规乱挂的行为,辅助商品详情页面的合规,满足业务应用这样的技术效果。
[0023]图2是根据本专利技术实施例的数据处理方法的详细系统执行流程的示意图。
[0024]下面,参照图2,在上述总体实施例的基础上,对各个步骤进行详细描述。
[0025]步骤S101:获取数据源,对所述数据源进行清洗和处理,以筛选出用于模型训练的相关特征。其中,该数据源包括:电商平台商品和品牌词等多种数据源。该处理方式包括分词和/或匹配等方式。
[0026]在步骤S101中,针对方案中所有使用的数据特征进行预处理和筛选。其中包括:
[0027]a)特征预处理:主要包括文本数据中特殊字符的清洗、文本分词、相关品牌词数据的匹配和提取等;
[0028]b)数据特征筛选:主要包括商品标题、商品标题中品牌词、商品授权品牌词、商品类目等相关属性信息;和
[0029]c)特征分析结果:针对品牌和类目等特征进行基本的统计分析。
[0030]步骤S102:对上述步骤S101中筛选出的相关特征进行向量化,合并所有向量化的特征而作为特征向量化结果。该特征向量化结果被用于后续模型训练。具体而言,对上述步骤S101中筛选出的特征进行向量化包括:针对上述步骤S101中筛选出的离散特征,进行one-hot特征向量化;针对文本特征,通过训练word2vec模型,进行特征嵌入向量化;以及针对连续特征,离散后进行one-hot特征向量化。其中,word2vec模型是Google提出的一个嵌入式文本向量化的模型方法。
[0031]在步骤S102中,针对步骤S101中筛选的相关特征进行向量化,其中包括:
[0032]a)如果是离散特征,则对特征进行独热编码,其中,离散特征是指不具备连续性的特征值,例如一个人的性别({男,女}非连续数值),独热编码(即one-hot向量化)是指用N位状态寄存器来对N个状态进行编码,例如:祖国特征:["中国本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取数据源,对所述数据源进行清洗和处理,以筛选出用于模型训练的相关特征;对所述相关特征进行向量化,合并所有向量化的特征而作为特征向量化结果;将所述特征向量化结果划分为训练数据集和评估数据集,基于所述训练数据集中的特征向量化结果和数据标签,训练深度因子机分解模型;对深度因子机分解模型的参数进行调优,以获取参数调优模型;以及利用所述参数调优模型,进行数据处理。2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述相关特征进行向量化具体包括:针对所述相关特征中的文本特征,通过训练word2vec模型,进行特征嵌入向量化。3.根据权利要求1所述的数据处理方法,其特征在于,所述对深度因子机分解模型的参数进行调优具体包括:利用所述评估数据集和所述深度因子机分解模型来评估模型效能以进行调优。4.根据权利要求1所述的数据处理方法,其特征在于,所述训练所述深度因子机分解模型具体包括:将所述训练数据集的特征向量化结果输入到深度因子机分解模型,结合训练数据真实标签(y)和模型预测标签通过下式算出交叉熵损失函数(L),通过反向传播算法使得损失函数最小化,训练获取深度因子机分解模型中相关参数,其中,yi为第i个样本的真实训练数据标签,为第i个样本的模型预测标签,i=1,2,

,n,n为训练样本数目,L为模型整体损失函数;即所有样本损失函数加和。5.一种数据处理装置,其特征在于,包括:特征筛选模块,获取数据源,对所述数据源进行清洗和处理,以筛选出用于模型训练的相关特征;特征向量化模块,对所述相关特征进行向量化,合并所有向量化的特征而作为特征向量化结果;模型训练模块,将...

【专利技术属性】
技术研发人员:刘婷婷黄明星赖晨东黄建杰李银锋周彬
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1