本发明专利技术涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
Methods, devices and computer storage media for extracting web content
【技术实现步骤摘要】
提取网页内容的方法、装置和计算机存储介质
本公开涉及提取网页内容的方法、装置和计算机存储介质。
技术介绍
互联网、固定接入设备及便携式接入终端的迅速发展,使得网页成为人们获取信息、制造信息的主要媒介。但是随着网页数量的激增,想要快速准确地获取所需信息是困难的。随着数字资源和万维网上的信息的飞速增长,存在着大量方便用户阅读的信息。因此,也存在根据需要将所需要抽取的信息自动抽取出来的需求。提取网页内容的方法和系统通常涉及从半结构化的Web文档中抽取数据,其核心在于将分散在网络上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化的、语义更为清晰的形式加以表示,为用户在Web中查询数据以及应用程序直接利用Web中的数据提供便利。由于网页内容信息提取是互联网信息处理的首要环节,因此信息提取的准确度会直接影响到后续的处理。信息抽取的目标是去除提取噪音,获取网页中有价值的信息,例如网页的标题、时间、正文、链接等信息。传统的网页信息提取方法包括基于规则的提取方法和基于机器学习的提取方法。基于规则的方法可以达到较高的提取准确度,但是规则的构建过程需要领域专家的深度参与,由于需要借助人工参与,因此仅对于少量数据来说可能是有效的,这样的人工标注方法无法处理海量数据。相比于基于规则的提取方法,基于机器学习的方法则无需人工参与。但是这类方法往往需要大量的标注语料,而制作标注语料也需要人工来完成,因此现有的基于机器学习的信息提取方法也存在局限性。因此,本专利技术旨在提供一种能够解决上述问题的提取网页信息的方法、装置和计算机存储介质。相比于现有技术,本专利技术能够用于海量数据的处理、不需要大量的人工标注的参与、且具有更高的准确度,并且能够根据需要适应性地提取所需的信息。应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本公开的目的在于本专利技术旨在提供一种提取网页信息的方法、装置和计算机存储介质。相比于现有技术,本专利技术能够用于海量数据的处理、不需要大量的人工标注的参与、且具有更高的准确度,并且能够根据需要适应性地提取所需的信息。为了实现本公开的目的,根据本公开的一个方面提供了一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。根据本公开的另一方面,还提供了一种提取网页内容的装置,包括:至少一个处理器,被配置成执行提取网页内容的方法。根据本公开的另一方面,还提供了一种存储有计算机可读的程序指令的计算机可读介质,当所述程序指令由计算机执行时,用于实现提取网页内容的方法。下面参考附图详细描述本专利技术的示例性实施例的进一步特性和优点,以及本专利技术的示例性实施例的结构和操作。应当注意,本专利技术不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。附图说明参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公开的以上和其它目的、特点和优点,在附图中:图1是示出网页中待提取的内容的示例的示意图;图2示出根据本公开实施方式的网页内容提取方法的各步骤的流程图;图3A是一个示例网页的部分的示意图;图3B是示出将图3A示出的网页部分转换成文档对象模型树的一个示例的示意图;图4是根据本公开的实施方式的提取网页信息系统的系统框图;图5是示出可用来实现根据本公开的实施方式的提取网页内容的装置的通用机器的结构简图。具体实施方式在下文中将结合附图对本公开的示例性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的部件,而省略了与本公开关系不大的其他细节。本领域的技术人员可以理解,示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此,示例性实施例的各个方面可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为"电路"、"模块"或"系统"。此外,示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序,或者计算机程序可以位于一个或更多个远程服务器上,或被嵌入设备的存储器中。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设本文档来自技高网...
【技术保护点】
1.一种提取网页内容的方法,包括:/n计算网页特征与至少一个网页特征聚类的代表集合的相似度,所述代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;/n确定与所述网页特征的相似度最高的代表集合;/n用所述网页特征更新与所确定的代表集合关联的网页特征聚类;/n重新计算所更新的网页特征聚类的代表集合;以及/n根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。/n
【技术特征摘要】
1.一种提取网页内容的方法,包括:
计算网页特征与至少一个网页特征聚类的代表集合的相似度,所述代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;
确定与所述网页特征的相似度最高的代表集合;
用所述网页特征更新与所确定的代表集合关联的网页特征聚类;
重新计算所更新的网页特征聚类的代表集合;以及
根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
2.如权利要求1所述的方法,其中,
所述代表集合中彼此间相似度较高的网页特征的样本取自同一类别的网页内容。
3.如权利要求2所述的方法,其中,
所述代表集合的数量等于待提取网页内容的类别的数量。
4.如权利要求1所述的方法,其中
基于所更新的网页特征聚类中网页特征与其它样本的网页特征的相似度之和除以与各个代...
【专利技术属性】
技术研发人员:夏迎炬,郑仲光,孟遥,陈炎,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。