一种基于页面分析的SPU获取方法及存储介质,其中方法包括如下步骤,获取第一页面中的页面展示内容,所述页面展示内容包括文字;识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;将所述分词结果送入SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别所述第一页面属于不同的SPU的分类结果。上述方案能够对网页等信息页面进行信息读取,并进行分类,通过神经网络进行分类,最终达到分析页面中的SPU相关性的技术效果。提升SPU的识别准确率。确率。确率。
【技术实现步骤摘要】
一种基于页面分析的SPU获取方法及存储介质
[0001]本专利技术涉及数据分析领域,尤其涉及一种识别页面内容数据分析其中包含的SPU名称等信息的方法及存储介质。
技术介绍
[0002]随着互联网技术的发展,云计算、大数据、分布式应用等技术为我们提供更敏捷的产品交付、更创新的业务模式和更优质的客户体验,但同时也给数据分析带来了新的分析和挑战。
[0003]在现有的网络社区中,存在各种各样去中心化的用户发布内容,需要对用户发布内容进行内容提取,以及相关数据的分析解析,因此需要能够对任意的页面内容进行分析。传统的SPU提取的方法,仅是通过分析搜索关键词的方式将搜索结果定位到特定SPU页面上。并没有针对任意页面内容进行内容提取分析的技术方案。无法对任意页面内容分析出合适的对其进行分类的方式。
技术实现思路
[0004]因此,需要提供一种能够对系统中的资源进行自动化配置的方法及存储介质。
[0005]为实现上述目的,专利技术人提供了一种基于页面分析的SPU获取方法,包括如下步骤,
[0006]获取第一页面中的页面展示内容,所述页面展示内容包括文字;
[0007]识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;
[0008]将所述分词结果送入SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别所述第一页面属于不同的SPU的分类结果。
[0009]本申请的一实施例中,还包括步骤,将所述第一页面的页面关联数据信息进行分析整合,得到第一SPU的分析整合数据。
[0010]本申请的一实施例中,所述第一页面的页面关联数据信息包括点击率、留存时间、用户名称、用户年龄、用户性别中的一个或多个。
[0011]本申请的一实施例中,还包括步骤,识别所述页面展示内容中的第一符号信息,对所述第一符号信息指向的第一分词结果,提升所述第一分词结果的相应权重。
[0012]本申请的一实施例中,还包括步骤,建立知识图谱,所述知识图谱包括如下节点:品牌名、别名、第一描述词、SPU名,还包括所述品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述第一描述词与所述别名之间的第三边,以及所述第一描述词与SPU名之间的第四边,和别名与SPU名之间的第五边。
[0013]本申请的一实施例中,还进行设置:还包括第二描述词节点,所述第二描述词节点还通过第六边与第一描述词节点连接,所述第二描述词节点还通过第七边与别名连接,所述第二描述词节点还通过第八边与品牌连接,所述第一边与第八边的权重不同,或所述第
一边与第八边的权重可取值范围不同。本申请的一实施例中,还包括步骤,针对页面的文本共现的元素构建共现矩阵O,针对矩阵中的每个值采用符号函数sgn(x)进行处理,得到只含0和1的共现矩阵,其中每个元素按位置表示为:
[0014]O
i,j
,i,j from 1 to 4
[0015]所述元素包括品牌、商品名、别名、描述词,共现矩阵符合下列情况时确定对应的SPU:
[0016][0017]or
[0018][0019]所述共现矩阵O的迹越大,识别可靠度越高。
[0020]本申请的一实施例中,还包括如下步骤,识别所述分词结果位于页面展示内容中的位置,以所述分词结果在若干次页面下拉操作之后能被显示为依据,设置所述分词结果的权重。
[0021]本申请的一实施例中,还包括步骤,在加载页面展示内容时,将页面中包含的图片内容压缩为预设像素大小,再进行分词结果的位置判定。
[0022]一种基于页面分析的SPU获取存储介质,存储有可执行程序,所述可执行程序在被计算机执行时运行上述的基于页面分析的SPU获取方法。
[0023]上述方法及存储介质能够对网页等信息页面进行信息读取,并进行分类,通过神经网络进行分类,最终达到分析页面中的SPU相关性的技术效果。提升SPU的识别准确率。
[0024]上述
技术实现思路
相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
[0025]附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
[0026]图1为具体实施方式所述的基于页面分析的SPU获取方法流程图;
[0027]图2为具体实施方式所述的分词结果权重调整方法示意图;
[0028]图3为具体实施方式所述的建立知识图谱流程图;
[0029]图4为具体实施方式所述的分词结果设置方法流程图;
[0030]图5为具体实施方式所述的页面分析系统示意图;
[0031]图6为具体实时方式所述的知识图谱示意图。
具体实施方式
[0032]为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实
施例并配合附图详予说明。
[0033]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
[0034]除非另有定义,本文所使用的技术术语的含义与本申请所属
的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
[0035]在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
[0036]在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
[0037]在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
[0038]与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本申本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于页面分析的SPU获取方法,其特征在于,包括如下步骤,获取第一页面中的页面展示内容,所述页面展示内容包括文字;识别所述页面展示内容中的文字内容,对所述文字内容进行语义分割,得到所述文字内容的分词结果;将所述分词结果送入SPU识别神经网络,所述SPU识别神经网络被训练为根据知识图谱识别所述第一页面属于不同的SPU的分类结果。2.根据权利要求1所述的基于页面分析的SPU获取方法,其特征在于,还包括步骤,将所述第一页面的页面关联数据信息进行分析整合,得到第一SPU的分析整合数据。3.根据权利要求2所述的基于页面分析的SPU获取方法,其特征在于,所述第一页面的页面关联数据信息包括点击率、留存时间、用户名称、用户年龄、用户性别中的一个或多个。4.根据权利要求1所述的基于页面分析的SPU获取方法,其特征在于,还包括步骤,识别所述页面展示内容中的第一符号信息,对所述第一符号信息指向的第一分词结果,提升所述第一分词结果的相应权重。5.根据权利要求1所述的基于页面分析的SPU获取方法,其特征在于,还包括步骤,建立知识图谱,所述知识图谱包括如下节点:品牌名、别名、第一描述词、SPU名,还包括所述品牌名与所述描述词之间的第一边,所述品牌名与所述别名之间的第二边,以及所述第一描述词与所述别名之间的第三边,以及所述第一描述词与SPU名之间的第四边,和别名与SPU名之间的第五边。6.根据权利要求5所述的基于页面分析的SPU获取方法,其特征在于,...
【专利技术属性】
技术研发人员:李在灼,胡长春,郑舒丹,姜豪,
申请(专利权)人:福州果集信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。