一种从文本中提取数据生成商品SPU的方法技术

技术编号:31894315 阅读:50 留言:0更新日期:2022-01-15 12:24
本发明专利技术涉及一种从文本中提取数据生成商品SPU的方法,其包括以下步骤:1)定期采集新增笔记文本存入预先创建的SQL Server数据库和笔记队列中;2)调用品牌词逐个扫描笔记文本,检索是否存在相应品牌词;3)调用商品词逐个扫描笔记文本,检索是否存在相应商品词;4)判断检索到的商品词商品类别与品牌词商品类别是否存在交集;5)检索该商品词与预先创建的描述词库是否关联有描述词集合,若否,则保存品牌词和商品词,作为商品SPU,若是,则截取该笔记文本品牌词与商品词之间的字符串,与描述词集合进行关键描述词匹配,若未匹配到关键描述词,则保存品牌词和商品词作为商品SPU,若匹配到关键描述词,则保存品牌词、关键描述词和商品词作为商品SPU。品词作为商品SPU。品词作为商品SPU。

【技术实现步骤摘要】
一种从文本中提取数据生成商品SPU的方法


[0001]本专利技术涉及数据处理
,尤其是一种从文本中提取数据生成商品SPU的方法。

技术介绍

[0002]随着电子商务平台在中国兴起后,网购消费在人们生活中的重要性不断提高,网购已成消费者消费重要渠道。
[0003]目前,淘宝,抖音、快手、西瓜视频、小红书等平台,由于其转化率高,营销效果好,逐渐成为电商平台、内容平台的新增长动力,加速了消费转化,为商家带来了更高的流量。例如,小红书生态的崛起,聚集了大量的美妆测评爱好者,后面慢慢发展到了对其它行业比如母婴,美食,男装,鞋包等众多领域的测评,衍生出了大量的产品测评广告,也逐渐的吸引了更多的品牌方入驻小红书投放商业广告,对于品牌方而言通过浩瀚的小红书发文中搜索出该品牌投放的广告无疑是巨大的工作量,同时品牌方之间也存在着了解竞品在圈内投放的声量,因此如何能够准确提取出小红书发文中信息较为全面品牌商品信息,对于各品牌方统计品牌投放效果或者调研竞品广告投放声量具有重要的意义。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的情况,设计合理,能够快速、准确提取商品信息的从文本中提取数据生成商品SPU的方法。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]一种从文本中提取数据生成商品SPU的方法,其包括以下步骤:
[0007]1)定期采集新增笔记文本,将新增笔记文本存入预先创建的SQL Server数据库中,并将新增笔记文本的ID存入笔记队列中;
[0008]2)针对笔记队列,逐个按照笔记文本ID从SQL Server数据库调取相应笔记文本,并调用预先创建的品牌词库中品牌词逐个扫描笔记文本,检索该笔记文本是否存在相应品牌词,若否,则将该笔记文本移至预先创建的人工审核库,并结束任务,若是,则执行步骤3);
[0009]3)调用预先创建的商品词库中商品词逐个扫描笔记文本,检索该笔记文本是否存在相应商品词,若否,则将该笔记文本移至预先创建的人工审核库,并结束任务,若是,则执行步骤4);
[0010]4)判断检索到的商品词所代表商品的商品类别与检索到的品牌词所经营若干个商品的商品类别是否存在交集,若否,则将该笔记文本移至预先创建的人工审核库,并结束任务,若是,则执行步骤5);
[0011]5)检索该商品词与预先创建的描述词库是否关联有该商品词的描述词集合W1,若否,则保存品牌词和商品词,作为商品SPU,若是,则执行步骤6);
[0012]6)截取该笔记文本品牌词与商品词之间的字符串S1,与描述词集合W1进行关键描
述词匹配,若没有匹配到关键描述词,则保存品牌词和商品词,作为商品SPU,若有匹配到关键描述词,则保存品牌词、关键描述词和商品词,作为商品SPU。
[0013]作为优选,步骤6)中关键描述词匹配的方法,包括以下步骤:
[0014]6.1)将描述词集合W1中描述词遍历该笔记文本进行匹配,获得描述词子集W2;
[0015]6.2)判断描述词子集W2的长度是否小于2,若是,则重复步骤6.1),若否,则执行步骤6.3);
[0016]6.3)获取描述词子集W2与字符串S1的交集S2;遍历交集S2,查找交集S2中每个字符对应于字符串S1中的索引位置idx,得到字典D1;
[0017]6.4)将字典D1按值从小到大排序,得到排序T1;
[0018]6.5)从排序T1中获取连续相邻的字符串集合S3;
[0019]6.6)遍历字符串集合S3,过滤长度小于2且不在字符串S1中的字符串,得到关键描述词。
[0020]作为优选,步骤6.5)中从T1中获取连续相邻的字符串集合S3的方法,包括以下步骤:
[0021]6.5.1)初始化获得空的列表L1;
[0022]6.5.2)判断排序T1长度是否为空,若是,则返回列表L1,若否,则在列表L1中新增空列表,设置初始化值i=0,其中,i为自然数;
[0023]6.5.3)判断i是否小于T1长度,若否,则返回列表L1,若是,则执行步骤6.5.4);
[0024]6.5.4)判断T[i][1]是否等于T[i

1][1]+1,若否,则执行步骤6.5.5),若是,则执行步骤6.5.6);
[0025]6.5.5)在列表L1中的最后一个列表中插入T[i

1][0],并在列表L1中插入空列表后,执行步骤6.5.6);
[0026]6.5.6)在列表L1中的最后一个列表中插入T[i

1][0],i自动加1,并执行步骤6.5.3)。
[0027]作为优选,步骤1)中预先创建SQL Server数据库的方法为:收集大量评论商品的笔记文本,并为每个笔记文本设置ID,基于Microsoft SQL Server,创建SQL Server数据库。
[0028]作为优选,步骤2)中预先创建品牌词库的方法为:对SQL Server数据库笔记文本进行品牌挖掘分析,获得用于表示品牌名称的品牌词以及每个品牌所经营若干个商品的商品类别,并将每个品牌词与其相应商品类别进行关联,创建品牌词库。
[0029]作为优选,步骤3)中预先创建商品词库的方法为:对SQL Server数据库笔记文本进行商品挖掘分析,获得用于表示商品名称的商品词以及每个商品词所代表商品的商品类别,并将每个商品词与其相应商品类别进行关联,创建商品词库。
[0030]作为优选,步骤5)中预先创建描述词库的方法为:对SQL Server数据库笔记文本进行描述词挖掘,主要是通过关联规则算法,获得用于表示商品描述信息的描述词集合,并创建描述词库。
[0031]作为优选,描述词库的描述词更新方法,包括以下步骤:
[0032]5.1)定期遍历品牌词库,检索每个品牌词是否均关联有至少一个描述词,若是,则执行步骤5.2),若否,则执行步骤5.3);
[0033]5.2)调取SQL Server数据库中与该品牌词相关的最新N个笔记文本,其中,N为大于 10的自然数,执行步骤5.4);
[0034]5.3)调取SQL Server数据库该品牌词相关的全量笔记文本,执行步骤5.4);
[0035]5.4)遍历调取的笔记文本,从中提取与该品牌词相关的商品词相关文本A;
[0036]5.5)对商品词相关文本A进行描述词挖掘:过滤停用词和商品相关词,获得商品词对应的描述词,存入描述词库。
[0037]进一步,其还包括对商品词相关文本A进行关键描述词挖掘,该方法为:对每个商品词的商品词相关文本进行排序后,按顺序将每个商品词遍历M个商品词相关文本,其中,M为大于1的自然数,然后根据GSP算法计算词的关联性,输出最大支持度的描述词,作为关键描述词。
[0038]进一步,其还包括对商品词相关文本A进行去噪保存,该方法为:判断商品词相关文本A 是否存在该品牌词,若存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种从文本中提取数据生成商品SPU的方法,其特征在于:其包括以下步骤:1)定期采集新增笔记文本,将新增笔记文本存入预先创建的SQL Server数据库中,并将新增笔记文本的ID存入笔记队列中;2)针对笔记队列,逐个按照笔记文本ID从SQL Server数据库调取相应笔记文本,并调用预先创建的品牌词库中品牌词逐个扫描笔记文本,检索该笔记文本是否存在相应品牌词,若否,则将该笔记文本移至预先创建的人工审核库,并结束任务,若是,则执行步骤3);3)调用预先创建的商品词库中商品词逐个扫描笔记文本,检索该笔记文本是否存在相应商品词,若否,则将该笔记文本移至预先创建的人工审核库,并结束任务,若是,则执行步骤4);4)判断检索到的商品词所代表商品的商品类别与检索到的品牌词所经营若干个商品的商品类别是否存在交集,若否,则将该笔记文本移至预先创建的人工审核库,并结束任务,若是,则执行步骤5);5)检索该商品词与预先创建的描述词库是否关联有该商品词的描述词集合W1,若否,则保存品牌词和商品词,作为商品SPU,若是,则执行步骤6);6)截取该笔记文本品牌词与商品词之间的字符串S1,与描述词集合W1进行关键描述词匹配,若没有匹配到关键描述词,则保存品牌词和商品词,作为商品SPU,若有匹配到关键描述词,则保存品牌词、关键描述词和商品词,作为商品SPU。2.根据权利要求1所述的从文本中提取数据生成商品SPU的方法,其特征在于:步骤6)中关键描述词匹配的方法,包括以下步骤:6.1)将描述词集合W1中描述词遍历该笔记文本进行匹配,获得描述词子集W2;6.2)判断描述词子集W2的长度是否小于2,若是,则重复步骤6.1),若否,则执行步骤6.3);6.3)获取描述词子集W2与字符串S1的交集S2;遍历交集S2,查找交集S2中每个字符对应于字符串S1中的索引位置idx,得到字典D1;6.4)将字典D1按值从小到大排序,得到排序T1;6.5)从排序T1中获取连续相邻的字符串集合S3;6.6)遍历字符串集合S3,过滤长度小于2且不在字符串S1中的字符串,得到关键描述词。3.根据权利要求2所述的从文本中提取数据生成商品SPU的方法,其特征在于:步骤6.5)中从T1中获取连续相邻的字符串集合S3的方法,包括以下步骤:6.5.1)初始化获得空的列表L1;6.5.2)判断排序T1长度是否为空,若是,则返回列表L1,若否,则在列表L1中新增空列表,设置初始化值i=0,其中,i为自然数;6.5.3)判断i是否小于T1长度,若否,则返回列表L1,若是,则执行步骤6.5.4);6.5.4)判断T[i][1]是否等于T[i

1][1]+1,若否,则执行步骤6.5.5),若是,则执行步骤6.5.6);6.5.5)在列表L1中的最后一个列表中插入T[i

1][0],并在列表L1中插入空列表后,执行步骤6.5.6);6.5.6)在列表L1中的最后一...

【专利技术属性】
技术研发人员:李在灼姜豪胡长春
申请(专利权)人:福州果集信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1