本申请公开一种商品数据多模态清洗方法及其装置、设备、介质、产品,所述方法包括:确定商品数据集,所述商品数据集包括多个携带真实分类标签的商品数据,所述真实分类标签为预设类目树中的叶子节点;根据每个商品数据的文本特征信息进行聚类确定该商品数据相对应的文本聚类标签,文本聚类标签总数与叶子节点总数相等;根据每个商品数据的图片特征信息进行聚类确定该商品数据相对应的图片聚类标签,图片聚类标签总数与叶子节点总数相等;根据同一商品数据的文本聚类标签与图片聚类标签相对于真实分类标签的价值信息对所述商品数据集中的商品数据实施数据清洗。本申请能够以多模态方式对海量的商品数据进行有效数据清洗。方式对海量的商品数据进行有效数据清洗。方式对海量的商品数据进行有效数据清洗。
【技术实现步骤摘要】
商品数据多模态清洗方法及其装置、设备、介质、产品
[0001]本申请涉及电商信息
,尤其涉及一种商品数据多模态清洗方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
技术介绍
[0002]随着深度学习的发展,各种神经网络模型的规模越来越大,训练数据的规模也越来越大,随着规模的扩大,训练数据中的噪声数据也逐渐增多,大量的噪声数据会严重影响模型的效果,传统的人工标注很难高效地处理如此大批量的数据,如果未能有效地对数据进行清洗,噪声数据将会严重影响神经网络模型的训练效果。
[0003]现有技术中,对神经网络模型所需的训练数据进行清洗,一般是应用简单的手段,检测残缺数据、错误数据、重复数据等,非常简单粗暴,未充分考虑数据本身对神经网络模型的价值因素,因此,对于提升训练数据相对于模型的价值而言,收效甚微。
[0004]模型训练所需的训练数据,特别是携带监督标签的数据,其相应的标签是否准确有效,会在较大程度上影响模型的训练效果,具体会影响模型的习得能力,因此,数据清洗阶段,更需要对此加以关注。业内对于携带标签的训练数据进行清洗所提出的相关解决方案主要是基于聚类算法,根据聚类结果简单进行校验,去除标注信息与聚类结果不符的训练数据。此类方式尽管在相当程度上提升了数据的质量,但不够精细,而且未能与模型相结合对相关数据进行清洗,特别是对于多模态模型而言,简单的聚类恐难以有效实现数据清洗。
[0005]数据清洗的需求在电商领域尤为明显。电商领域中,海量的商品相对应的商品数据,一般均有标签信息与之一一对应,但是,当这些商品数据的标签信息是来自不同来源或以不同标准生成时,如何使这些商品数据得到有效的标注,便成为更大的难题。
[0006]综上所述,如何针对商品数据构成的训练数据进行数据清洗,使其适应神经网络模型的需要而成为有效的训练数据,对于电商领域而言,值得探索。
技术实现思路
[0007]本申请的首要目的在于解决上述问题至少之一而提供一种商品数据多模态清洗方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0008]为满足本申请的各个目的,本申请采用如下技术方案:
[0009]适应本申请的目的之一而提供的一种商品数据多模态清洗方法,包括如下步骤:
[0010]确定商品数据集,所述商品数据集包括多个携带真实分类标签的商品数据,所述真实分类标签为预设类目树中的叶子节点;
[0011]根据每个商品数据的文本特征信息进行聚类确定该商品数据相对应的文本聚类标签,文本聚类标签总数与叶子节点总数相等;
[0012]根据每个商品数据的图片特征信息进行聚类确定该商品数据相对应的图片聚类标签,图片聚类标签总数与叶子节点总数相等;
[0013]根据同一商品数据的文本聚类标签与图片聚类标签相对于真实分类标签的价值信息对所述商品数据集中的商品数据实施数据清洗。
[0014]深化的实施例中,根据每个商品数据的文本特征信息进行聚类确定该商品数据相对应的文本聚类标签,文本聚类标签总数与叶子节点总数相等,包括如下步骤:
[0015]采用预训练的文本特征提取模型提取所述商品数据集中每个商品数据的商品标题的文本特征信息;
[0016]按照叶子节点个数设定聚类所需的分类数目,以所述商品数据的文本特征向量进行聚类,获得与所述分类数目相应的多个基于文本的商品数据簇,每个商品数据簇中包含多个被相应聚类的商品数据;
[0017]为每个基于文本的商品数据簇统计其中商品数据所拥有的最大数量的真实分类标签,将该最大数量的真实分类标签确定为该商品数据簇中每个商品数据的文本聚类标签。
[0018]深化的实施例中,根据每个商品数据的图片特征信息进行聚类确定该商品数据相对应的图片聚类标签,图片聚类标签总数与叶子节点总数相等,包括如下步骤:
[0019]采用预训练的图片特征提取模型提取所述商品数据集中每个商品数据的商品图片的图片特征信息;
[0020]按照叶子节点个数设定聚类所需的分类数目,以所述商品数据的图片特征向量进行聚类,获得与所述分类数目相应的多个基于图片的商品数据簇,每个商品数据簇中包含多个被相应聚类的商品数据;
[0021]为每个基于图片的商品数据簇统计其中商品数据所拥有的最大数量的真实分类标签,将该最大数量的真实分类标签确定为该商品数据簇中每个商品数据的图片聚类标签。
[0022]深化的实施例中,根据同一商品数据的文本聚类标签与图片聚类标签相对于真实分类标签的价值信息对所述商品数据集中的商品数据实施数据清洗,包括如下步骤:
[0023]对同一商品数据的文本聚类标签与图片聚类标签进行一致性判断;
[0024]判断出同一商品数据的文本聚类标签与图片聚类标签相一致时,确定该两个聚类标签相对于真实分类标签具有贡献价值,将其真实分类标签重置为文本聚类标签或图片聚类标签;
[0025]判断出同一商品数据的文本聚类标签与图片聚类标签不一致,且文本聚类标签与图片聚类标签其中之一与真实分类标签一致时,根据预设条件确定具有贡献价值的文本聚类标签或图片聚类标签,以其重置满足预设条件的商品数据的真实分类标签;
[0026]将真实分类标签未被重置的商品数据从商品数据集中删除以实现清洗。
[0027]具体化的实施例中,根据预设条件确定具有贡献价值的文本聚类标签或图片聚类标签,以其重置满足预设条件的商品数据的真实分类标签,包括如下步骤:
[0028]统计商品数据集中商品数据的商品标题的平均长度;
[0029]对于商品数据的文本聚类标签与真实分类标签一致而图片聚类标签与真实分类标签不一致的情况,以该商品数据的商品标题的长度超过该平均长度为预设条件,在该预设条件成立时确认该文本聚类标签具有贡献价值,以其重置该商品数据的真实分类标签;
[0030]对于商品数据的图片聚类标签与真实分类标签一致而文本聚类标签与真实分类
标签不一致的情况,以该商品数据的商品标题的长度小于该平均长度为预设条件,在该预设条件成立时确认该图片聚类标签具有贡献价值,以其重置该商品数据的真实分类标签。
[0031]扩展的实施例中,本申请商品数据多模态清洗方法还包括如下后续步骤:
[0032]将完成数据清洗后的商品数据集中每个商品对象的文本特征信息和图片特征信息进行特征拼接,获得其相应的图文特征信息;
[0033]采用所述商品数据集中的各个商品数据的图文特征信息对分类器实施迭代训练,且以各个商品数据的真实分类标签监督该商品数据的迭代训练过程中预测分类标签,根据该预测分类标签与该真实分类标签的损失值对该分类器的权重实施梯度更新,直至该分类器被训练至收敛状态。
[0034]适应本申请的目的之一而提供的一种商品数据多模态清洗装置,包括:数据确定模块、文本聚类模块、图片聚类模块,以及数据清洗模块,其中,所述数据确定模块,用于确定商品数据集,所述商品数据集包括多个携带真实分类标签的商品本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种商品数据多模态清洗方法,其特征在于,包括如下步骤:确定商品数据集,所述商品数据集包括多个携带真实分类标签的商品数据,所述真实分类标签为预设类目树中的叶子节点;根据每个商品数据的文本特征信息进行聚类确定该商品数据相对应的文本聚类标签,文本聚类标签总数与叶子节点总数相等;根据每个商品数据的图片特征信息进行聚类确定该商品数据相对应的图片聚类标签,图片聚类标签总数与叶子节点总数相等;根据同一商品数据的文本聚类标签与图片聚类标签相对于真实分类标签的价值信息对所述商品数据集中的商品数据实施数据清洗。2.根据权利要求1所述的商品数据多模态清洗方法,其特征在于,根据每个商品数据的文本特征信息进行聚类确定该商品数据相对应的文本聚类标签,文本聚类标签总数与叶子节点总数相等,包括如下步骤:采用预训练的文本特征提取模型提取所述商品数据集中每个商品数据的商品标题的文本特征信息;按照叶子节点个数设定聚类所需的分类数目,以所述商品数据的文本特征向量进行聚类,获得与所述分类数目相应的多个基于文本的商品数据簇,每个商品数据簇中包含多个被相应聚类的商品数据;为每个基于文本的商品数据簇统计其中商品数据所拥有的最大数量的真实分类标签,将该最大数量的真实分类标签确定为该商品数据簇中每个商品数据的文本聚类标签。3.根据权利要求1所述的商品数据多模态清洗方法,其特征在于,根据每个商品数据的图片特征信息进行聚类确定该商品数据相对应的图片聚类标签,图片聚类标签总数与叶子节点总数相等,包括如下步骤:采用预训练的图片特征提取模型提取所述商品数据集中每个商品数据的商品图片的图片特征信息;按照叶子节点个数设定聚类所需的分类数目,以所述商品数据的图片特征向量进行聚类,获得与所述分类数目相应的多个基于图片的商品数据簇,每个商品数据簇中包含多个被相应聚类的商品数据;为每个基于图片的商品数据簇统计其中商品数据所拥有的最大数量的真实分类标签,将该最大数量的真实分类标签确定为该商品数据簇中每个商品数据的图片聚类标签。4.根据权利要求1所述的商品数据多模态清洗方法,其特征在于,根据同一商品数据的文本聚类标签与图片聚类标签相对于真实分类标签的价值信息对所述商品数据集中的商品数据实施数据清洗,包括如下步骤:对同一商品数据的文本聚类标签与图片聚类标签进行一致性判断;判断出同一商品数据的文本聚类标签与图片聚类标签相一致时,确定该两个聚类标签相对于真实分类标签具有贡献价值,将其真实分类标签重置为文本聚类标签或图片聚类标签;判断出同一商品数据的文本聚类标签与图片聚类标签不一致,且文本聚类标签与图片聚类标签其中之一与真实分类标签一致时,根据预设条件确定具有贡献价值的文本聚类标签或图片聚类标签,以其重置满足预设条件的商品数据的...
【专利技术属性】
技术研发人员:冯一丁,
申请(专利权)人:广州华多网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。