System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书实施例主要涉及数据处理,具体为一种页面实体信息提取方法及装置。
技术介绍
1、用户会浏览页面。通过提取页面上的实体信息可以了解用户对什么内容感兴趣,进而能够将其他相关的内容推送给用户。
2、如图1所示,其为一张页面的示意图。现有技术的页面实体信息提取方法为:先逐条采集页面上的信息,采集后的信息如图2所示。然后将采集到的信息进行平展,平展后的信息如图3所示。最后从平展后的信息中提取实体信息,提取到的实体信息如图4所示。
3、该方法提取到的实体信息是离散的,实体信息之间的关联性较弱。通过离散的实体信息来确定用户感兴趣的内容,准确度较低。
技术实现思路
1、本说明书实施例针对现有技术存在的问题,提出了一种页面实体信息提取方法及装置,其技术方案如下:
2、第一方面,本说明书实施例提供了一种页面实体信息提取方法,包括:
3、提取文字段本体,获取文字段本体的路径信息和字体信息,将路径信息、字体信息与文字段本体进行组合以得到文字段数据;
4、根据路径信息将文字段数据构建成内容树;
5、根据内容树对文字段数据进行分组;
6、根据路径信息、字体信息获取分组后的文字段数据中的文字段本体的重要值;
7、提取文字段本体中的实体信息,并将与文字段本体对应的重要值赋予所提取的实体信息;
8、根据重要值对组内的实体信息进行排序。
9、第二方面,本说明书实施例提供了一种页面实体信息提取装
10、文字段数据获取模块,用于提取文字段本体,获取文字段本体的路径信息和字体信息,将路径信息、字体信息与文字段本体进行组合以得到文字段数据;
11、内容树构建模块,用于根据路径信息将文字段数据构建成内容树;
12、文字段数据分组模块,用于根据内容树对文字段数据进行分组;
13、重要值获取模块,用于根据路径信息、字体信息获取分组后的文字段数据中的文字段本体的重要值;
14、实体信息提取模块,用于提取文字段本体中的实体信息,并将与文字段本体对应的重要值赋予所提取的实体信息;
15、实体信息排序模块,用于根据重要值对组内的实体信息进行排序。
16、第三方面,本说明书实施例提供了一种电子设备,包括:
17、存储器,用于存储程序;
18、处理器,用于运行存储器中存储的程序,以执行第一方面的页面实体信息提取方法。
19、第四方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的页面实体信息提取方法。
20、有益效果
21、本说明书实施例的页面实体信息提取方法及装置,先提取文字段本体并获取文字段本体的路径信息和字体信息以形成文字段数据,然后将文字段数据构建成内容树,接着通过内容树对文字段数据进行分组,再然后获取组内每一个文字段数据的重要值,再接着在文字段数据分组的基础下,对组内的文字段数据的文字段本体提取实体信息并将文字段数据的重要值赋予所提取的实体信息,最后按重要值对每一组内的实体信息进行排序,分组排序后的实体信息,一方面能够清楚确定各实体信息之间的关联性,另一方面能够确定哪些实体信息更为重要,进而能够更加准确地确定用户感兴趣的内容。
22、进一步地或者更细节的有益效果将在具体实施方式中结合具体实施例进行说明。
本文档来自技高网...【技术保护点】
1.一种页面实体信息提取方法,包括:
2.根据权利要求1所述的页面实体信息提取方法,获取所述文字段本体的路径信息包括:使用JavaScript并通过DOM操作获取所述文字段本体的路径信息。
3.根据权利要求1所述的页面实体信息提取方法,获取所述文字段本体的字体信息包括:使用JavaScript并通过DOM操作获取所述文字段本体的字体大小信息;
4.根据权利要求1所述的页面实体信息提取方法,根据所述路径信息将所述文字段数据构建成内容树包括:
5.根据权利要求1所述的页面实体信息提取方法,根据所述内容树对所述文字段数据进行分组包括:
6.根据权利要求5所述的页面实体信息提取方法,确定分组节点包括:
7.根据权利要求5所述的页面实体信息提取方法,根据所述分组节点创建分组区包括:
8.根据权利要求5所述的页面实体信息提取方法,根据所述内容树对所述文字段数据进行分组还包括:
9.根据权利要求8所述的页面实体信息提取方法,提取所述文字段本体中的实体信息并将与所述文字段本体对应的重要值赋予所提取的实
10.一种页面实体信息提取装置,包括:
11.根据权利要求10所述的页面实体信息提取装置,所述文字段数据获取模块包括:
12.根据权利要求10所述的页面实体信息提取装置,所述文字段数据获取模块包括:
13.根据权利要求10所述的页面实体信息提取装置,所述内容树构建模块包括:
14.根据权利要求10所述的页面实体信息提取装置,所述文字段数据分组模块包括:
15.根据权利要求14所述的页面实体信息提取装置,所述分组节点确定单元包括:
16.根据权利要求14所述的页面实体信息提取装置,所述分组区创建单元包括:
17.根据权利要求14所述的页面实体信息提取装置,所述文字段数据分组模块还包括:
18.根据权利要求17所述的页面实体信息提取装置,所述实体信息提取模块还包括:
19.一种电子设备,包括:
20.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-9中任意一权利要求所述的页面实体信息提取方法。
...【技术特征摘要】
1.一种页面实体信息提取方法,包括:
2.根据权利要求1所述的页面实体信息提取方法,获取所述文字段本体的路径信息包括:使用javascript并通过dom操作获取所述文字段本体的路径信息。
3.根据权利要求1所述的页面实体信息提取方法,获取所述文字段本体的字体信息包括:使用javascript并通过dom操作获取所述文字段本体的字体大小信息;
4.根据权利要求1所述的页面实体信息提取方法,根据所述路径信息将所述文字段数据构建成内容树包括:
5.根据权利要求1所述的页面实体信息提取方法,根据所述内容树对所述文字段数据进行分组包括:
6.根据权利要求5所述的页面实体信息提取方法,确定分组节点包括:
7.根据权利要求5所述的页面实体信息提取方法,根据所述分组节点创建分组区包括:
8.根据权利要求5所述的页面实体信息提取方法,根据所述内容树对所述文字段数据进行分组还包括:
9.根据权利要求8所述的页面实体信息提取方法,提取所述文字段本体中的实体信息并将与所述文字段本体对应的重要值赋予所提取的实体...
【专利技术属性】
技术研发人员:李小六,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。