数据处理方法和装置制造方法及图纸

技术编号：29923434 阅读：11 留言：0更新日期：2021-09-04 18:37

本发明专利技术公开了数据处理方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取数据源，对所述数据源进行清洗和处理，以筛选出用于模型训练的相关特征；对所述相关特征进行向量化，合并所有向量化的特征而作为特征向量化结果；将所述特征向量化结果划分为训练数据集和评估数据集，基于所述训练数据集中的特征向量化结果和数据标签，训练深度因子机分解模型；对深度因子机分解模型的参数进行调优，以获取参数调优模型；以及利用所述参数调优模型，进行数据处理。该实施方式有效识别商品标题中未授权品牌违规乱挂的行为，辅助商品详情页面的合规，满足业务应用。满足业务应用。满足业务应用。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种数据处理方法和装置。

技术介绍

[0002]随着电商平台的日益繁荣，有些商家为了提高商品的曝光度，会在商品标题中输入已被授权品牌词之外的其他品牌词。对此，为了维护电商平台的商品经营秩序，避免损害同行商家的品牌权益，需要采取措施针对商品详情页信息进行合规质检。当前针对品牌乱挂违规的判别，很大程度上是基于规则性的匹配进行检测的方法，即：针对部分品牌词，通过人工维护同质品牌词数据表，以及相关类目规则的方式，基于固定匹配规则，检测有限商品、部分品牌的违规乱挂情形。另外，还存在一种使用传统机器学习模型的检测方法，通过整合多种商品属性(例如商品类目、品牌、价格等特征)，使用传统的LR/xgboost等机器学习模型，识别商品标题中品牌乱挂违规情形。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：基于规则性的匹配进行检测的方法需要人工维护很多品牌表以及品牌与类目间的关联关系，不仅费时耗力，而且不利于高速增长商品数据和品牌扩展；而基于传统机器学习模型的检测方法不能很好体现特征间的交互效应以及特征的深层抽象表示，同时缺少对文本数据的语境理解，使得有些特殊情形的检测存在误判这样的问题。

技术实现思路

[0004]有鉴于此，本专利技术提供一种数据处理方法，通过对数据源进行处理并建立相关的模型，利用该模型对待处理的数据进行处理。从而能够实现在电商领域内检测商品标题中未授权品牌违规乱挂，以便有效支持大量商详信息的品牌...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取数据源，对所述数据源进行清洗和处理，以筛选出用于模型训练的相关特征；对所述相关特征进行向量化，合并所有向量化的特征而作为特征向量化结果；将所述特征向量化结果划分为训练数据集和评估数据集，基于所述训练数据集中的特征向量化结果和数据标签，训练深度因子机分解模型；对深度因子机分解模型的参数进行调优，以获取参数调优模型；以及利用所述参数调优模型，进行数据处理。2.根据权利要求1所述的数据处理方法，其特征在于，所述对所述相关特征进行向量化具体包括：针对所述相关特征中的文本特征，通过训练word2vec模型，进行特征嵌入向量化。3.根据权利要求1所述的数据处理方法，其特征在于，所述对深度因子机分解模型的参数进行调优具体包括：利用所述评估数据集和所述深度因子机分解模型来评估模型效能以进行调优。4.根据权利要求1所述的数据处理方法，其特征在于，所述训练所述深度因子机分解模型具体包括：将所述训练数据集的特征向量化结果输入到深度因子机分解模型，结合训练数据真实标签(y)和模型预测标签通过下式算出交叉熵损失函数(L)，通过反向传播算法使得损失函数最小化，训练获取深度因子机分解模型中相关参数，其中，yi为第i个样本的真实训练数据标签，为第i个样本的模型预测标签，i＝1,2,
…
,n，n为训练样本数目，L为模型整体损失函数；即所有样本损失函数加和。5.一种数据处理装置，其特征在于，包括：特征筛选模块，获取数据源，对所述数据源进行清洗和处理，以筛选出用于模型训练的相关特征；特征向量化模块，对所述相关特征进行向量化，合并所有向量化的特征而作为特征向量化结果；模型训练模块，将...

【专利技术属性】
技术研发人员：刘婷婷，黄明星，赖晨东，黄建杰，李银锋，周彬，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人