System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及互联网网页搜索,特别涉及一种网站产品识别方法及装置。
技术介绍
1、随着互联网的普及,越来越多的企业喜欢建立自己的网站,来对外进行企业信息的展示,企业官网会将本公司的产品放在网站中的某些位置,并加上图片、参数、简介等内容进行说明展示。不同行业的官网,其格局、构图甚至产品描述差异巨大;同一行业的官网,其产品与描述相似,但布局与风格也会差别很大。随着nlp及深度学习技术的兴起,从这些网站中定位这些产品信息并进行相关抽取及分类成为可能;此外,对于垂直领域或者跨领域的网站来说,识别并提取其中的产品也成为可能。
2、目前产品提取的困难点在于,可以通过深度学习等相关文本进行做一个文本分类任务;但是,训练数据有限,很难覆盖各种各样的产品名称。比如,对于官网来说,新闻中的产品可能会识别成产品,有些技术方案也可能会识别成产品,有些产品名称可能会识别成其它内容,甚至某些公司的产品就是一串代号。由于一些官方网站中的产品或者新闻或者是解决方案很具有迷惑性,因此,单靠深度学习的方法也很难识别到正确的产品,这样就会导致抽取到的产品准确率或者召回率较低。
3、目前该领域研究方法比较多,比如《一种网页信息提取方法及装置》是对网页信息进行结构化提取,《网页信息抽取方法、装置、电子设备及存储介质》是对网页信息进行正文提取,《一种基于语义的网页信息抽取方法及系统》是对网页进行特征化处理,以便在做下游任务时,可以更好的完成下游任务。上述这些方法基本上是没有明确要对目标物进行抽取,而是范围比较广泛。还有《数据处理方法、装置、电子设备
技术实现思路
1、本专利技术实施例的目的是提供一种网站产品识别方法及装置,可以对不依赖关键词的数量特征进行统计,能够针对场景较丰富,既可以对密集型产品页面进行提取,也可以对非密集型产品页面进行产品提取,能够有效提高产品抽取过程中的精确率和召回率。
2、为解决上述技术问题,本专利技术实施例第一方面提供了一种网站产品识别方法,包括如下步骤:
3、获取网站html数据,提取所述网站页面的独有页面数据;
4、获取所述独有页面数据中的文本信息,记录所述网站当前页面的url信息;
5、依据产品识别模型,判断所述文本信息是否为产品节点;
6、依据所述url信息对判定为所述产品节点的所述文本信息进行聚类,计算聚类得到的所有类别中的产品比例值,在所述产品比例值最高的所述类别中识别产品,获取所述产品信息。
7、进一步地,所述依据所述url信息对判定为所述产品节点的所述文本信息进行聚类,包括:
8、计算所述url与前述url的相似度;
9、如所述相似度的分数最大值大于预设阈值,则将所述url相应链接添加至所述分数最大值对应的类别;
10、如所述相似度的分数最大值小于或等于所述预设阈值,则创建一个新的类别,并将所述url相应链接添加至所述新的类别。
11、进一步地,所述计算所述url与前述url的相似度之前,还包括:
12、判断所述url是否为第一个url;
13、如是,则创建一个新的类别;
14、如否,则执行计算所述url与前述url的相似度的步骤。
15、进一步地,所述计算所述url与前述url的相似度,包括:
16、以“/”为分隔符分割所述链接中的路径;
17、获取最后一个“/”之后的路径,将所述路径中的数字替换为预设字符,计算第一文本相似度,并将所述第一文本相似度数值乘以第一预设权重值,得到修正后的所述第一文本相似度;
18、获取最后一个“/”之前的路径,计算第二文本相似度,并将所述第一文本相似度数值乘以第二预设权重值,得到修正后的所述第二文本相似度;
19、计算修正后的所述第一文本相似度和修正后的所述第二文本相似度之和,得到所述url的相似度。
20、进一步地,所述类别的产品比例值si为:
21、
22、其中,zi为对ci中样本si被判别为产品类的个数,len(si)表示样本si的个数,ci为第i个类别,si为是属于ci样本的集合;
23、所述产品比例值最高的所述类别c为:
24、c=argmax([s1,s2…,si,…sm])。
25、相应地,本专利技术实施例第二方面提供了一种网站产品识别装置,包括:
26、页面提取模块,其用于获取网站html数据,提取所述网站页面的独有页面数据;
27、文本获取模块,其用于获取所述独有页面数据中的文本信息,记录所述网站当前页面的url信息;
28、文本判断模块,其用于依据产品识别模型,判断所述文本信息是否为产品节点;
29、产品获取模块,依据所述url信息对判定为所述产品节点的所述文本信息进行聚类,计算聚类得到的所有类别中的产品比例值,在所述产品比例值最高的所述类别中识别产品,获取所述产品信息。
30、进一步地,所述产品获取模块包括:
31、相似度计算单元,其用于计算所述url与前述url的相似度;
32、相似度判断单元,其用于在所述相似度的分数最大值大于预设阈值时,将所述url相应链接添加至所述分数最大值对应的类别;
33、所述相似度判断单元还用于在所述相似度的分数最大值小于或等于所述预设阈值时,创建一个新的类别,并将所述url相应链接添加至所述新的类别。
34、进一步地,所述产品获取模块还包括:
35、url顺序判断单元,其用于判断所述url是否为第一个url;
36、控制单元,其用于在所述url为第一个url时创建一个新的类别;
37、所述控制单元还用于在所述url不为第一个url时执行计算所述url与前述url的相似度的步骤。
38、进一步地,所述相似度计算单元包括:
39、路径分割子单元,其用于以“/”为分隔符分割所述链接中的路径;
40、第一计算子单元,其用于获取最后一个“/”之后的路径,将所述路径中的数字替换为预设字符,计算第一文本相似度,并将所述第一文本相似度数值乘以第一预设权重值,得到修正后的所述第一文本相似度;
41、第二计算子单元,其用于获取最后一个“/”之前的路径,计算第二文本相似度,并将所述第一文本相似度数值乘以第二预设权重值,得到修正后的所述第二文本相似度;
42、相似度计算子单元,其用于计算修正后的所述第一文本相似度和修正后的所述第二文本相似度之和,得到所述url的相似度。
43、进一步地,所述类别的产品比例值s本文档来自技高网...
【技术保护点】
1.一种网站产品识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的网站产品识别方法,其特征在于,所述依据所述url信息对判定为所述产品节点的所述文本信息进行聚类,包括:
3.根据权利要求2所述的网站产品识别方法,其特征在于,所述计算所述url与前述url的相似度之前,还包括:
4.根据权利要求2所述的网站产品识别方法,其特征在于,所述计算所述url与前述url的相似度,包括:
5.根据权利要求1-4任一所述的网站产品识别方法,其特征在于,
6.一种网站产品识别装置,其特征在于,包括:
7.根据权利要求6所述的网站产品识别装置,其特征在于,所述产品获取模块包括:
8.根据权利要求7所述的网站产品识别装置,其特征在于,所述产品获取模块还包括:
9.根据权利要求7所述的网站产品识别装置,其特征在于,所述相似度计算单元包括:
10.根据权利要求7-9任一所述的网站产品识别装置,其特征在于,
11.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少
12.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-5任一所述的网站产品识别方法。
...【技术特征摘要】
1.一种网站产品识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的网站产品识别方法,其特征在于,所述依据所述url信息对判定为所述产品节点的所述文本信息进行聚类,包括:
3.根据权利要求2所述的网站产品识别方法,其特征在于,所述计算所述url与前述url的相似度之前,还包括:
4.根据权利要求2所述的网站产品识别方法,其特征在于,所述计算所述url与前述url的相似度,包括:
5.根据权利要求1-4任一所述的网站产品识别方法,其特征在于,
6.一种网站产品识别装置,其特征在于,包括:
7.根据权利要求6所述的网站产品识别装置,其特征在于,所述产品获取模块包括:
...【专利技术属性】
技术研发人员:潘永灿,王全军,张邵,宋宪鑫,潘腾飞,刘鹏,
申请(专利权)人:北京合享智星数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。