【技术实现步骤摘要】
本专利技术涉及数据挖掘
,尤其涉及一种业务对象属性的确定方法及设备。
技术介绍
随着互联网技术和物流行业的飞速发展,越来越多的人通过电商提供的平台实现自己的创业梦,于此同时,越来越多的人足不出户即可完成购物体验。电商平台为用户提供了丰富的业务对象(可以为实物产品、服务等),但是,由于电商平台销售方式的限制,用户无法在购买业务对象之前确定业务对象的真假属性(例如,业务对象是否为假冒伪劣产品),而只能通过电商平台侧对业务对象的描述,确定业务对象的真假属性。由于假冒伪劣产品成本低、出售假冒伪劣产品能够攫取到高额利润,使得使用电商平台的有些卖家铤而走险,最后给消费者造成损失,同时也损害电商平台的口碑。因此,针对电商平台提供的产品,现有技术中提供了多种识别假冒伪劣产品的方法:方法一、人工抽检法:主要通过人工抽检的方式对假冒伪劣产品进行识别,具体实施时,可以以普通用户的身份通过电商平台购买需要抽检的产品,然后根据产品特征对产品做正品鉴定,其中,产品特征主要指产品的自然属性,例如:产品的价格、防伪标识、包装、材质、外观、气味、颜色等。方法一的优点:识别出假冒伪劣产品的准确率高。方法一的缺点:抽检的成本高(需要购买大量的产品供抽检)且抽样效率低下;不能够实时发现售假卖家;需要权威部门(厂家或政府质检机构)的鉴定。可见,方法一的识别方式受成本因素制约大,抽检的范围小,而且需要品牌方的协助,不但难以实施而且效果不好。方法二:机器自动识别法:可以通过机器自动识别的方式对假冒伪劣产品进行识别,具体实施时,可以基于产品的价格特征和/或卖家特征等通过机器自动分 ...
【技术保护点】
一种业务对象属性的确定方法,其特征在于,包括:从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定所述业务对象的真假属性。
【技术特征摘要】
1.一种业务对象属性的确定方法,其特征在于,包括:从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定所述业务对象的真假属性。2.如权利要求1所述的方法,其特征在于,基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量,具体包括:使用预设分词工具对训练样本进行分词处理;针对每个完成分词处理的训练样本,对该训练样本进行特征提取,生成该训练样本对应的第一词组向量;根据所述预设分类器支持的向量格式,为构成各第一词组向量的不同的第一词分量生成对应的特征词;以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。3.如权利要求2所述的方法,其特征在于,以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第
\t一词组向量分别生成对应的第一特征向量,具体包括:使生成的不同的特征词表征第一特征向量的不同的维度,或者使生成的特征词与预设维度相叠加表征第一特征向量的不同的维度;针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值。4.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:针对为每个第一词组向量生成的第一特征向量的每个维度,当表征该维度的特征词在该第一词组向量中具有对应的第一词分量时,将该维度的值确定为第一预设固定值;当表征该维度的特征词在该第一词组向量中不具有对应的第一词分量时,将该维度的值确定为第二预设固定值。5.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频,确定为该维度的值。6.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中
\t分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;以及针对构成各第一词组向量的不同第一词分量,确定包含该第一词分量的第一词组向量的个数;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频与指定商的乘积,确定为该维度的值,其中,所述指定商为基于第一词组向量的个数,与包含该第一词分量的第一词组向量的个数的商确定的。7.如权利要求2所述的方法,其特征在于,在生成特征词之后,还包括:基于预设特征选择标准,对所述特征词进行特征选择和特征修剪,得到符合所述预设特征选择标准的特征词;以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量,具体包括:以符合所述标准的特征词表征不同的维度,或者以符合所述标准的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。8.如权利要求1-7任一项所述的方法,其特征在于,使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重,具体包括:基于所述预设分类器支持的特征向量、各特征向量分别归属的类别、表征特征向量各维度的特征词对应的权重,构造所述预设分类器对应分类算法中的
\t损失函数;将所述训练样本对应的各第一特征向量的值,以及所述各第一特征向量对应训练样本所包含的评估值作为所述损失函数的输入,采用所述分类算法对所述损失函数进行运算处理,得到表征第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重的值。9.如权利要求1-7任一项所述的方法,其特征在于,在使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类之前,还包括:使用预设分词工具对待分类评价文本进行分词处理;针对每个完成分词处理的待分类评价文本,对该待分类评价文本进行特征提取,生成该待分类评价文本对应的第二词组向量;根据表征所述第一特征向量的各维度的特征词与构成各第一词组向量的不同的第一词分量之间的对应关系,将构成各所述第二词组向量的第二词分量与所述特征词进行匹配;并根据得到的匹配结果,为各第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量。10.如权利要求9所述的方法,其特征在于,根据得到的匹配结果,为各所述第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量,具体包括:针对构成每个第二词组向量的各第二词分量,当该第二词分量匹配到特征词时,则将该第二词分量对应的预设值确定为该第二词分量所在第二词组向量对应第二特征向量中匹配到的特征词所在维度的值;其中,所述预设值为预设固定值,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频与预设商的乘积,其中,预设商为基于各第二词组向量的个数,与包含该第二词分量的第二词组向量的个数的商确定的;当该第二词分量未匹配到特征词时,根据第二特征向量的维度,确定未匹配到特征词的第二词分量在第二特...
【专利技术属性】
技术研发人员:王国印,石志伟,郑恒,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。