本发明专利技术实施例公开了一种网页关键词提取方法,包括,爬取互联网网页;提取爬取下来的网页中的锚文本,提取所述锚文本的URL和所述锚文本的周围文本;根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词。本发明专利技术实施例还公开了一种网页关键词提取装置和系统,通过以上技术方案可以减少网页关键词提取的计算量,提高关键词提取的精准度。
【技术实现步骤摘要】
本专利技术涉及互联网领域,特别涉及一种网页关键词提取方法、装置及系统。
技术介绍
网页关键词(keywords)的提取是海量数据背景下的互联网应用中的一个热点问 题。为网页提取适当的关键词,可以用以提示和概括网页的内容。网页关键词提取在基于 关键词的精准广告,网页摘要,网页检索,用户行为分析中应用广泛。传统做法(例如,KEA关键词提取方法)倾向于从网页文本中提取关键词。先把网 页爬取下来,然后做网页解析,提取网页的标题,metadata(网页元数据)信息和正文。然 后再分词,去除掉stop-word (停用词)之后得到候选关键词,再提取候选关键词词的特征, 通过设定一系列复杂的规则或是通过人工智能的方式来给候选关键词打分,设定阀值或是 通过提取分数较高的前面N个侯选关键词来提取关键词。需要解析网页,提取网页正文,解析网页,提取网页正文算法复杂,计算量大。而且 由于互联网上的网页极不规则,提取网页正文只在针对某种特定类型的网页的时候效果才 较好,例如已经产品化的中科院、海量等的网页主题提取组件,但是都只针对特定类型的网 页,而网页正文提取又和关键词提取紧密联系,如果提取的网页正文里面包含广告,版权等 其它信息,可能会把广告,版权等信息无提取为正文;或者是某部分重要内容没有被提取出 来,关键词提取的精准度就会大大降低。因此,现有的网页解析方法计算量大,关键词提取 的精准度不高。
技术实现思路
本专利技术实施例提供一种网页关键词的提取方法、装置、及系统,以减少网页解析的 计算量,提高关键词提取的精度。本专利技术一个实施例提供一种网页关键词提取方法,包括爬取互联网网页;提取爬取下来的网页中的锚文本,提取所述锚文本的统一资源定位符URL和所述 锚文本的周围文本;根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指 向的网页的网页关键词。本专利技术一个实施例提供一种网页关键词提取装置,包括爬取模块,用于爬取互联网网页;第一提取模块,用于提取爬取下来的网页中的锚文本;第二提取模块,用于提取所述锚文本的URL ;第三提取模块,用于提取所述锚文本的周围文本;关键词提取模块,用于根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;关联模块,用于将所述关键词和所述锚文本的URL关联,将所述关键词作为所述 锚文本的URL指向的网页的网页关键词。本专利技术一个实施例提供一种关键词提取系统,包括网页提取装置和索引关键词 库所述网页关键词提取装置,用于用于爬取互联网网页;提取爬取下来的网页中的 锚文本;提取所述锚文本的URL和所述锚文本的周围文本;根据预定的规则,从所述锚文本 和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述 关键词作为所述锚文本的URL指向的网页的网页关键词;所述索引关键词库,用于存储所述锚文本的URL和与所述锚文本的URL关联的关 键词。本专利技术实施例从锚文本和锚文本的周围文本出发提取网页关键词,锚文本对具体 内容网页做了高度的精炼和概况,所以提取具体内容网页的关键词,直接从锚文本提取符 合网站制作网页的思路。同时锚文本周围文本,对内容网页的主题做了补充,通过这种方 式,能提高关键词提取的精准度,而且提取网页关键词时不需要对网页正文进行提取,减少 了复杂的网页解析,降低了关键词提取的计算量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。图1本专利技术实施例提供一种网页关键词提取方法的流程图;图2本专利技术实施例提供一种网页关键词提取方法的流程图;图3本专利技术实施例提供一种网页关键词提取方法的流程图;图4本专利技术实施例提供一种网页关键词提取装置的结构图;图5本专利技术实施例提供一种网页关键词提取装置的结构图;图6本专利技术实施例提供一种关键词提取模块的结构图;图7本专利技术实施例提供一种关键词提取模块的结构图;图8本专利技术实施例提供一种网页关键词提取系统的结构图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供一种网页关键词提取方法,包括S101,爬取互联网网页;在一个实施例中,可以通过爬取工具(如网络蜘蛛、网页爬虫等)将网页爬取下来。在一个实施例中,可以使用一个基于广度遍历检索的网页爬虫来爬取互联网网页;在一 个实施例中,对于较大型的网页,可以做优化,只需要爬行深度小于3的网页。在一个实施例中,可以将爬取下来的网页存放到内存中,或者是本地磁盘,或者是 数据库块中,本专利技术实施例不做特别的限定。S102,提取爬取下来的网页中的锚文本;S103,提取锚文本的URL (Uniform Resource Locator,统一资源定位符)和锚文本 的周围文本;在一个实施例中,每一个锚文本都会有一个URL,该URL代表了锚文本指向的网页 的地址。在一个实施例中,锚文本的周围文本包括,与锚文本所在的HTML (HyperText Markup Language,超文本标识语言)节点的距离在预置范围内的文本和/或HTML标签;在 一个实施例中改预置范围可以根据实际情况进行设置,例如设置为1、2或者10等,本专利技术 实施例不做特别的限定。在一个实施例中,锚文本的周围文本包括,从包含所述锚文本的标签容器中提取 的文本;在一个实施例中,锚文本的周围文本包括,与所述锚文本的距离在预置范围内的 网页文本。在一个实施例中改预置范围可以根据实际情况进行设置,例如设置为1、2或者10 等,本专利技术实施例不做特别的限定。在一个实施例中,可以从包含上述锚文本的HTML标签的容器中提取锚文本的周 围文本。在一个实施例中,S102 S103可以同时进行,本专利技术实施例不对这三个步骤的执 行顺序做特别的限定。S104,根据预定的规则,从锚文本和锚文本的周围文本中提取关键词。在一个实施例中,步骤S104可以包括S1041,将锚文本和锚文本的周围文本进行结合,形成锚点数据;在这里,将锚文本和锚文本的周围文本进行结合可以是,将提取的锚文本和该锚 文本对应的周围文本存放在一起,存放放在一起后的数据形成锚点数据;在这里,将锚文本和其周围文本存放在一起,在一个实施例中,可以是将锚文本和 其周围文本存储在一个数据集合中,该数据集合形成锚点数据。该数据结合可以存储在光 盘、硬盘、磁盘以及其它一些存储记忆体中。在这里,将锚文本和其周围文本存放在一起,在一个实施例中,可以是将锚文本和 其周围文本通过预定的关联函数或者关联关系进行映射关联,映射关联后形成锚点数据。S1042,对合并后的锚文本和锚文本的周围文本进行分词处理,去掉停用词,得到 侯选关键词;即,对锚点数据进行分词处理,去掉停用词,得到侯选关键词。在一本文档来自技高网...
【技术保护点】
1.一种网页关键词提取方法,其特征在于,包括:爬取互联网网页;提取爬取下来的网页中的锚文本,提取所述锚文本的统一资源定位符URL和所述锚文本的周围文本;根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词。
【技术特征摘要】
【专利技术属性】
技术研发人员:陆元飞,刘刚,朱汝维,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。