本发明专利技术提供了一种确定官网首页中的地址信息的方法,包括:获取一个或多个的官网首页;对官网首页的页面内容进行文本分析以提取页面内容中的一个或多个地址相关文本片段;对地址相关文本片段进行处理以抽出多个地址相关切分词;将多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定地址相关文本片段为地址信息。本发明专利技术的实施例中,从大量首页中确定官网首页,并基于官网首页的页面内容来确定地址信息,可快速获取官网下具有较高权威性及正确性的地址信息,为基于官网下的地址信息来检测POI数据的方式提供有力保证。
【技术实现步骤摘要】
本专利技术涉及计算机
,具体而言,本专利技术涉及确定官网首页中的地址信息的方法及装置。
技术介绍
在地理信息系统中,一个POI (Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据包括地址信息和POI名称。传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取每个POI的经玮度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,地理信息系统很难根据数量很少的POI数据来提供高水平的服务。互联网上的官网可提供具有权威性的地址信息和名称信息,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性可大大提高检测POI数据的准确性。因此,如何从官网首页中确定得到地址信息是首先需要解决的重要问题之一。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:本专利技术根据一个方面,提供了一种确定官网首页中的地址信息的方法,包括:获取一个或多个的官网首页;对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段;对所述地址相关文本片段进行处理以抽出多个地址相关切分词;将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。其中,获取一个或多个的官网首页的步骤,具体包括:查找多个首页URL;对各个首页URL所在主域下包括的首页URL进行聚类,确定该主域下包含的多个首页URL的数量;若该主域下包含的多个首页URL的数量小于预定数量阈值,获取所述多个首页URL各自对应的网页的用户关注度;基于用户关注度对所述多个首页URL各自对应的网页进行排序,确定用户关注度最高的网页为官网首页。其中,获取所述多个首页URL各自对应的网页的用户关注度的步骤,包括:根据所述多个首页URL各自对应的网页在预定时长内的用户点击次数和/或平均每次浏览时长,获取相应的用户关注度。其中,对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段的步骤,具体包括:基于地址关键词规则在所述官网首页的页面内容中进行文本匹配;当匹配成功时,根据提取规则提取所述页面内容中的一个或多个地址相关文本片段。其中,对所述地址相关文本片段进行处理以抽出多个地址相关切分词的步骤,具体包括:获取对所述地址相关文本片段切词后得到的多个原始切分词;对所述多个原始切分词进行过滤处理以抽出多个地址相关切分词。本专利技术根据另一个方面,还提供了一种确定官网首页中的地址信息的装置,包括:首页获取模块,用于获取一个或多个的官网首页;提取模块,用于对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段;抽取模块,用于对所述地址相关文本片段进行处理以抽出多个地址相关切分词;确定模块,用于将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。其中,所述首页获取模块具体包括:查找单元,用于查找多个首页URL ; 聚类单元,用于对各个首页URL所在主域下包括的首页URL进行聚类,确定该主域下包含的多个首页URL的数量;关注度获取单元,用于若该主域下包含的多个首页URL的数量小于预定数量阈值,获取所述多个首页URL各自对应的网页的用户关注度;排序单元,用于基于用户关注度对所述多个首页URL各自对应的网页进行排序,确定用户关注度最高的网页为官网首页。其中,所述关注度获取单元用于根据所述多个首页URL各自对应的网页在预定时长内的用户点击次数和/或平均每次浏览时长,获取相应的用户关注度。其中,所述提取模块具体包括:匹配单元,用于基于地址关键词规则在所述官网首页的页面内容中进行文本匹配;片段提取单元,用于当匹配成功时,根据提取规则提取所述页面内容中的一个或多个地址相关文本片段。其中,所述抽取模块具体包括:切分单元,用于获取对所述地址相关文本片段切词后得到的多个原始切分词;过滤单元,用于对所述多个原始切分词进行过滤处理以抽出多个地址相关切分Τ.κ| ο本专利技术中,由于官网可提供具有较高权威性及正确性的包括地址信息和名称信息,基于此来检测从POI数据提供网站中提取出的POI数据的准确性会大大提高,而从官网中提取地址信息是实现上述检测方式的基础;因此,本专利技术的实施例中,从大量首页中确定官网首页,并基于官网首页的页面内容来确定地址信息,可快速获取官网下具有较高权威性及正确性的地址信息,为基于官网下的地址信息来检测POI数据的方式提供有力保证。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术一个实施例中确定官网首页中的地址信息的方法的流程示意图;图2为本专利技术一个优选实施例中确定官网首页中的地址信息的方法的流程示意图;图3为本专利技术另一实施例中确定官网首页中的地址信息的装置的内部结构的框架示意图;图4为本专利技术另一优选实施例中确定官网首页中的地址信息的装置的内部结构的框架示意图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种确定官网首页中的地址信息的方法,其特征在于,包括:获取一个或多个的官网首页;对所述官网首页的页面内容进行文本分析以提取所述页面内容中的一个或多个地址相关文本片段;对所述地址相关文本片段进行处理以抽出多个地址相关切分词;将所述多个地址相关切分词分别在地址数据库中进行查询匹配,若各个地址相关切分词匹配成功,确定所述地址相关文本片段为地址信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:王智广,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。