一种新的网页业务数据结构化采集系统及方法技术方案

技术编号:16331994 阅读:45 留言:0更新日期:2017-10-02 00:04
本发明专利技术公开了一种新的网页业务数据结构化采集方法,涉及网页业务数据结构化采集管理系统、Web Services技术,包括:业务数据采集模块,用于定义网页业务数据采集规则,并提供业务数据采集并结构化处理的服务;业务数据映射模块,用于定义业务数据采集结果的映射结构;及提供业务数据采集结果的映射展现服务;业务数据转移模块,用于定义业务数据采集结果向其他应用程序提转移数据的结构及提供业务数据采集结果向其他应用程序输入数据的服务。

A new data collection system and method for Web Services

The present invention discloses a new kind of \structured business data acquisition method, involving\ business data acquisition management system, structured Web Services technology, including: business data acquisition module, data acquisition is used to define the \business rules, and provide business data collection and structured processing services; business data mapping module for mapping structure the definition of business data acquisition results; mapping and data acquisition results show to provide business services; business data transfer module is used to define the business data collection results to other applications to transfer the data structure and data acquisition to provide business results to other applications of input data service.

【技术实现步骤摘要】

本专利技术涉及网页业务数据结构化采集管理技术、WebServices技术,特别涉及一种新的网页业务数据结构化采集系统及方法
技术介绍
目前,互联网已成为一个巨大的资源宝库,网页数量已超过几千亿,其中包含了大量的有价值的业务数据,面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,但是由于网页业务数据都是非结构化或半结构化的,如何方便快捷地获取这些信息就变得至关重要了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够提供高质量和高效运作的业务数据采集解决方案。专利技术人在实现本专利技术的过程中,发现现有技术至少存在以下缺点和不足:首先,目前的同类网页数据采集系统,基本上是通过两种方式提供给用户,一种是提供客户端应用程序,另一种是单纯的提供采集服务。这两种方式弊端都非常明显,如提供客户端应用程序,即面临升级与维护的困难,同时,也难以适应用户各种各样的应用系统;单纯的提供采集服务,无法适应客户随时变化的需求。其次,目前的同类网页数据采集系统,其主要针对的采集对象是公开的网页信息,主要包括新闻、图片、博客、咨讯等等,采集的方式是根据目标网页的结构,定义采集范围与采集规则,但是,由于这些公共信息的模板存在不确定性,信息的格式经常发生变化,导致网页数据采集的准确性大大降低,同时,使用者需要经常重新定义采集范围与采集规则,而每次重新定义采集范围与采集规则,都会使使用者消耗大量的人力物力财力,因此,采集的效率非常低。
技术实现思路
为了实现对网页业务数据高效、准确、低成本的采集,满足不同操作系统与专业应用软件对网页业务数据的需要,本专利技术提供了一种网页业务数据结构化采集管理系统及其采集方法,所述网页业务数据结构化采集管理系统包括:网页业务数据采集模块,用于定业务数据采集范围与采集规则并供业务数据采集并结构化处理的服务。网页业务数据映射模块,用于定义业务数据采集结果的映射结构并提供业务数据采集结果的映射展现服务。网页业务数据转移模块,用于定义业务数据采集结果向其他应用程序转移数据的结构及提供业务数据采集结果向其他应用程序输入数据的服务。所述业务数据采集模块包括:采集规则设置子模块,用于设置业务数据采集规则;用户通过此模块,可定义网页业务数据的采集规则。采集服务子模块,用户可通过此模块进行网页业务数据的采集工作,可获得相应的采集结果,并结构化存储为数据库记录。业务数据映射模块包括:数据映射配置子模块,用于定义业务数据采集结果的映射结构。用户获得采集结果后,需要对采集结果的全部或部分进行二次展现,但原网页中的展现方式与命名并不符合用户需要,通过此模块,用户可自定义采集结果的二次展现结构。数据映射服务子模块,用户通过此模块,可对采集结果进行二次展现,以确定是否满足自身的数据需求。所述业务数据转移模块包括:数据转移配置子模块,用于用户根据自身业务系统的需求定义采集结果的输出结构。用户获得采集结果后,需要对采集结果的全部或部分应用到自身现有的业务应用系统中,通过此模块,用户可自定义采集结果的输出结构以满足身现有的业务应用系统的数据需求。数据转移服务子模块,用户通过此模块,可将采集的全部或部分数据应用到现有的各种专业应用系统中。网页业务数据结构化采集系统还包括:用户注册模块,用于站外人员初次登陆时,根据不同的系统角色注册系统用户。数据采集存储结构配置模块,用于定义网页业务数据存储目标的数据结构。本专利技术还提供一种网页业务数据结构化采集方法,其特征在于,所述方法包括以下步骤:(3)用户下载网页业务数据结构化采集插件,通过自动安装建立WebServices服务;(4)用户通过注册模块成为系统相应角色的用户。(3)所述业务数据采集规则配置模块,设置业务数据采集规则;(4)所述业务数据采集服务模块,用户进行业务数据采集并结构化处理;(5)所述业务数据映射配置模块,用户对采集结果的展现结构进行定义;(6)所述业务数据映射服务模块,用户可对采集的结果按照需要的方式展现;(7)所述业务数据转移配置模块,用户可根据自身业务系统的需求定义采集结果的输出结构。(8)所述业务数据转移服务模块,采集完成后,用户根据自身业务系统的需求将采集的数据进行再次应用处理。本专利技术提供的技术方案的有益效果是:本专利技术提供一种全新的采集网页业务数据的解决方案,通过WebServices方式,将各种专业的业务数据采集、数据映射、数据转移有机的结合在一起,通过用户自定义设置采集规则,满足用户对业务数据采集的多样化需求。借用此方案,使用者可根据自身业务系统对外部网页数据的需求方式,自主设置业务数据采集规则与业务数据转移方式,高效准确的获得所需的业务数据,为相关企业间业务数据的交流提供强有力的技术支持。附图说明图1为本专利技术提供的网页业务数据结构化采集系统的结构示意图;图2为本专利技术提供的数据采集模块的结构示意图;图3为本专利技术提供的数据映射模块的结构示意图;图4为本专利技术提供的数据转移模块的结构示意图;图5为本专利技术提供的网页业务数据结构化采集系统的公共结构示意图;图6为本专利技术提供的网页业务数据结构化采集管理方法的流程示意图。图7为本专利技术提供的网页业务数据结构化采集系统的应用示意图。附图中所列部件列表如下所示:1:数据采集模块;2:数据映射模块;3:数据转移模块;4:用户注册模块;5:数据采集存储结构配置模块;11:数据采集规则设置子模块;12:数据采集服务子模块;21:数据映射配置子模块;22:数据映射服务子模块;31:数据转移配置子模块;32:数据转移服务子模块。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。为了实现对网页业务数据高效、准确、低成本的采集,满足不同操作系统与专业应用软件对网页业务数据的需要,本专利技术提供了一种网页业务数据结构化采集管理系统,参见图1,详见下文描述:网页业务数据结构化采集管理系统包括:业务数据采集模块1,用于定网页业务数据采集范围与采集规则并供业务数据采集并结构化处理的服务。业务数据映射模块2,用于定义业务数据采集结果的映射结构并提供业务数据采集结果的映射展现服务。本文档来自技高网
...

【技术保护点】
一种网页业务数据结构化采集管理系统,其特征在于,所述业务数据结构化采集管理系统包括: 业务数据采集模块,用于定网页业务数据采集规则并供业务数据采集并结构化处理的服务。 业务数据映射模块,用于定义业务数据采集结果的映射结构并提供业务数据采集结果的映射展现服务。 业务数据转移模块,用于定义业务数据采集结果向其他应用程序转移数据的结构及提供业务数据采集结果向其他应用程序输入数据的服务。

【技术特征摘要】
1.一种网页业务数据结构化采集管理系统,其特征在于,所述业务数据结构化采集管理系统包括:
业务数据采集模块,用于定网页业务数据采集规则并供业务数据采集并结构化处理的服务。
业务数据映射模块,用于定义业务数据采集结果的映射结构并提供业务数据采集结果的映射展现服务。
业务数据转移模块,用于定义业务数据采集结果向其他应用程序转移数据的结构及提供业务数据采集结果向其他应用程序输入数据的服务。
2.根据权利要求1所述的一种网页业务数据结构化采集管理系统,其特征在于,所述业务数据采集模块包括:
网页业务数据采集规则设置子模块,用于设置业务数据采集规则;
网页业务数据采集服务子模块,用于用户采集网页业务数据,并结构化存储采集结果。
3.根据权利要求1所述的一种网页业务数据结构化采集管理系统,其特征在于,所述业务数据映射模块包括:
数据映射配置子模块,用于定义业务数据采集结果的映射结构。
数据映射配服务子模块,提供业务数据采集结果的映射展现。
4.根据权利要求1所述的一种网页业务数据结构...

【专利技术属性】
技术研发人员:郭永新肖东王宁张立君
申请(专利权)人:天津好市道营销科学应用科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1