一种从文本中提取数据生成商品SPU的方法技术

技术编号：31894315 阅读：59 留言：0更新日期：2022-01-15 12:24

本发明专利技术涉及一种从文本中提取数据生成商品SPU的方法，其包括以下步骤：1)定期采集新增笔记文本存入预先创建的SQL Server数据库和笔记队列中；2)调用品牌词逐个扫描笔记文本，检索是否存在相应品牌词；3)调用商品词逐个扫描笔记文本，检索是否存在相应商品词；4)判断检索到的商品词商品类别与品牌词商品类别是否存在交集；5)检索该商品词与预先创建的描述词库是否关联有描述词集合，若否，则保存品牌词和商品词，作为商品SPU，若是，则截取该笔记文本品牌词与商品词之间的字符串，与描述词集合进行关键描述词匹配，若未匹配到关键描述词，则保存品牌词和商品词作为商品SPU，若匹配到关键描述词，则保存品牌词、关键描述词和商品词作为商品SPU。品词作为商品SPU。品词作为商品SPU。

全部详细技术资料下载

【技术实现步骤摘要】
一种从文本中提取数据生成商品SPU的方法

[0001]本专利技术涉及数据处理
，尤其是一种从文本中提取数据生成商品SPU的方法。

技术介绍

[0002]随着电子商务平台在中国兴起后，网购消费在人们生活中的重要性不断提高，网购已成消费者消费重要渠道。
[0003]目前，淘宝，抖音、快手、西瓜视频、小红书等平台，由于其转化率高，营销效果好，逐渐成为电商平台、内容平台的新增长动力，加速了消费转化,为商家带来了更高的流量。例如，小红书生态的崛起，聚集了大量的美妆测评爱好者，后面慢慢发展到了对其它行业比如母婴，美食，男装，鞋包等众多领域的测评，衍生出了大量的产品测评广告，也逐渐的吸引了更多的品牌方入驻小红书投放商业广告，对于品牌方而言通过浩瀚的小红书发文中搜索出该品牌投放的广告无疑是巨大的工作量，同时品牌方之间也存在着了解竞品在圈内投放的声量，因此如何能够准确提取出小红书发文中信息较为全面品牌商品信息，对于各品牌方统计品牌投放效果或者调研竞品广告投放声量具有重要的意义。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的情况，设计合理，能够快速、准确提取商品信息的从文本中提取数据生成商品SPU的方法。
[0005]为了实现上述目的，本专利技术采用以下技术方案：
[0006]一种从文本中提取数据生成商品SPU的方法，其包括以下步骤：
[0007]1)定期采集新增笔记文本，将新增笔记文本存入预先创建的SQL Server数据库中，并将新增笔记文本的ID存入笔记队列中；...

【技术保护点】

【技术特征摘要】
1.一种从文本中提取数据生成商品SPU的方法，其特征在于：其包括以下步骤：1)定期采集新增笔记文本，将新增笔记文本存入预先创建的SQL Server数据库中，并将新增笔记文本的ID存入笔记队列中；2)针对笔记队列，逐个按照笔记文本ID从SQL Server数据库调取相应笔记文本，并调用预先创建的品牌词库中品牌词逐个扫描笔记文本，检索该笔记文本是否存在相应品牌词，若否，则将该笔记文本移至预先创建的人工审核库，并结束任务，若是，则执行步骤3)；3)调用预先创建的商品词库中商品词逐个扫描笔记文本，检索该笔记文本是否存在相应商品词，若否，则将该笔记文本移至预先创建的人工审核库，并结束任务，若是，则执行步骤4)；4)判断检索到的商品词所代表商品的商品类别与检索到的品牌词所经营若干个商品的商品类别是否存在交集，若否，则将该笔记文本移至预先创建的人工审核库，并结束任务，若是，则执行步骤5)；5)检索该商品词与预先创建的描述词库是否关联有该商品词的描述词集合W1，若否，则保存品牌词和商品词，作为商品SPU，若是，则执行步骤6)；6)截取该笔记文本品牌词与商品词之间的字符串S1，与描述词集合W1进行关键描述词匹配，若没有匹配到关键描述词，则保存品牌词和商品词，作为商品SPU，若有匹配到关键描述词，则保存品牌词、关键描述词和商品词，作为商品SPU。2.根据权利要求1所述的从文本中提取数据生成商品SPU的方法，其特征在于：步骤6)中关键描述词匹配的方法，包括以下步骤：6.1)将描述词集合W1中描述词遍历该笔记文本进行匹配，获得描述词子集W2；6.2)判断描述词子集W2的长度是否小于2，若是，则重复步骤6.1)，若否，则执行步骤6.3)；6.3)获取描述词子集W2与字符串S1的交集S2；遍历交集S2，查找交集S2中每个字符对应于字符串S1中的索引位置idx，得到字典D1；6.4)将字典D1按值从小到大排序，得到排序T1；6.5)从排序T1中获取连续相邻的字符串集合S3；6.6)遍历字符串集合S3，过滤长度小于2且不在字符串S1中的字符串，得到关键描述词。3.根据权利要求2所述的从文本中提取数据生成商品SPU的方法，其特征在于：步骤6.5)中从T1中获取连续相邻的字符串集合S3的方法，包括以下步骤：6.5.1)初始化获得空的列表L1；6.5.2)判断排序T1长度是否为空，若是，则返回列表L1，若否，则在列表L1中新增空列表，设置初始化值i＝0，其中，i为自然数；6.5.3)判断i是否小于T1长度，若否，则返回列表L1，若是，则执行步骤6.5.4)；6.5.4)判断T[i][1]是否等于T[i
‑
1][1]+1，若否，则执行步骤6.5.5)，若是，则执行步骤6.5.6)；6.5.5)在列表L1中的最后一个列表中插入T[i
‑
1][0]，并在列表L1中插入空列表后，执行步骤6.5.6)；6.5.6)在列表L1中的最后一...

【专利技术属性】
技术研发人员：李在灼，姜豪，胡长春，
申请(专利权)人：福州果集信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人