一种网络信息垂直搜索与挖掘处理方法技术

技术编号:3940554 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种网络信息垂直搜索与挖掘处理方法,该方法包括以下步骤:1)获取网页信息;2)对获取的网页信息进行结构化处理;3)对经处理后的数据进行逻辑推理和计算。与现有技术相比,本发明专利技术具有成本低、效率高、计算功能强大、灵活性好等优点。

【技术实现步骤摘要】

本专利技术涉及一种网络资源获取方法,尤其是涉及。
技术介绍
普通的网页搜索比如google是一种泛型搜索,整个结构的最小单位为网页,并不 会对网页当中的内容做数据结构化分析和语义分析。前的部分房地产行业垂直技术虽然可以做到一定程度的网页内容分析和数据结 构化处理,但仍然缺乏足够深入的信息挖掘,面对需要和地产行业知识紧密相关且需要一 定逻辑推理和公式计算的信息提取仍然有很多待解决的问题。而本专利提供的方法旨在解 决这一系列问题,诸如新房网络信息中通过复杂公式计算交易相关信息等。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种成本低、效率 高、计算功能强大、灵活性好的网络信息垂直搜索与挖掘处理方法。本专利技术的目的可以通过以下技术方案来实现,其特征在于,该方法包括以下步骤1)获取网页信息;2)对获取的网页信息进行结构化处理;3)对经处理后的数据进行逻辑推理和计算。所述的步骤1)获取网页信息步骤如下11)下载并保存任务起始页面信息;12)分析页面信息、分配并保存相关任务;13)启动任务处理单元,获取任务;14)各单元执行各自任务,下载并保存相关页面;15)分析页面信息、分配并保存其他相关任务;16)循环执行13)-15)步骤,直到所有任务处理结束后任务处理单元逐个结束工 作,获得Html文件并将其保存。所述的步骤2)对获取的网页信息进行结构化处理步骤如下21)读取下载的Html文件信息;22)将Html文件转为Dom对象,供分析;23)将Dom对象转为XML数据结构,保存到数据库中;24)批量分解XML数据到数据库表格中。所述的步骤3)对经处理后的数据进行逻辑推理和计算步骤如下31)系统第一次运行将所有历史数据下载并结构化分析处理,所有状态相关数据 保存到数据库中;32)下载所有步骤2)处理后的数据;33)设定任务驱动规则,判断步骤2)处理后的数据的关键指标和历史状态是否一 致,若为否,将步骤2)处理后的数据与历史状态对比,得出变化过程。与现有技术相比,本专利技术具有以下优点1)成本低、效率高、计算功能强大、灵活性好,并采用分布式多线程方式,具有良好 的扩展性;2)稍作调整后,能很快应用于多种行业的不同垂直搜索领域。 附图说明图1为本专利技术的流程图;图2为本专利技术的硬件结构示意图。具体实施例方式下面结合附图和具体实施例对本专利技术进行详细说明。实施例如图1所示,,该方法包括以下步骤1)获取网页信息;2)对获取的网页信息进行结构化处理;3)对经处理后的数据进行逻辑推理和计算。1、信息提取本专利技术适用于绝大多数网站前端应用,并不会直接访问对方后台数据库系统。主要技术规范和提取方式包括a)标准http协议方式访问;b)可控制多线程下载网页数据;c)根据预设定访问路径规则决定子页面是否下载,减少网络负载和目标服务器压 力;d)应用服务器分布式协同下载,增强工作效率。主要工作流程为11)下载并保存任务起始页面信息;12)分析页面信息、分配并保存相关任务;13)启动任务处理单元,获取任务;14)各单元执行各自任务,下载并保存相关页面;15)分析页面信息、分配并保存其他相关任务;16)循环执行13)-15)步骤,直到所有任务处理结束后任务处理单元逐个结束工 作,获得Html文件并将其保存。2、结构化处理结构化处理是指把软件下载的页面信息根据房地产专业角度来分析解释,把页面 信息转为专业数据表格的过程。转换后的数据表格待做进一步的挖掘和分析使用,一般都 保存在数据库系统中。本产品通过Dom对象转Xml的方法,将结构化数据分解为xml节点保存在数据库中作为原始数据使用,可以在下载扫描中降低分解复杂度和数据库端读写压力,而在后期 应用中再将xml数据转换为相应的数据库表格。这样可以最大限度的使分析单元适用于所 有网站数据。工作流程如下21)读取下载的Html文件信息;22)将Html文件转为Dom对象,供分析;23)将Dom对象转为XML数据结构,保存到数据库中;24)批量分解XML数据到数据库表格中。3、逻辑推理和计算垂直搜索技术中很多数据需要和历史状态比较来得出行业中产业链上某事物的 变化过程。这不但是普通搜索引擎无法完成的任务,在大多数行业垂直搜索中也很少应用。这里以新房的交易状态应用为例说明计算方法和计算过程。一般的新房数据结构 中包含项目(可查看累计成交面积、价格等)、楼栋(可查看已售套数等)、房间(可查看面 积、是否可售)等。而且单城市房间数据量大多在几十万到百万级别不等。要根据记录每 套房间的状态变化情况得出交易记录,并能够根据其他信息计算出交易价格,这就需要一 套完善的业务驱动机制和计算公式。整个逻辑推理和计算的过程如下31)系统第一次运行将所有历史数据下载并结构化分析,所有状态相关数据保存 到数据库中。32)下载所有项目信息和楼栋信息数据。33)设定任务驱动规则,检查项目信息和楼栋信息的关键指标和历史状态是否一 致,如果不一致则进入该项目房间列表逐个检查房间状态。这样可以避免大量的历史信息 被反复检索浪费资源。34)下载房间信息、结构化分析并和历史状态对比,得出变化过程。35)再配合项目的其他变化指标,比如累计成交面积、价格等计算当前状态发生的 交易价格等关键信息。如图2所示,本专利技术所涉及的硬件设备主要包括数据库服务器1、应用服务器2、防 火墙3、互联网4,所述的数据库服务器1、应用服务器2、防火墙3、互联网4依次连接。权利要求,其特征在于,该方法包括以下步骤1)获取网页信息;2)对获取的网页信息进行结构化处理;3)对经处理后的数据进行逻辑推理和计算。2.根据权利要求1所述的,其特征在于,所述 的步骤1)获取网页信息步骤如下11)下载并保存任务起始页面信息;12)分析页面信息、分配并保存相关任务;13)启动任务处理单元,获取任务;14)各单元执行各自任务,下载并保存相关页面;15)分析页面信息、分配并保存其他相关任务;16)循环执行13)-15)步骤,直到所有任务处理结束后任务处理单元逐个结束工作,获 得Html文件并将其保存。3.根据权利要求1所述的,其特征在于,所述 的步骤2)对获取的网页信息进行结构化处理步骤如下21)读取下载的Html文件信息;22)将Html文件转为Dom对象,供分析;23)将Dom对象转为XML数据结构,保存到数据库中;24)批量分解XML数据到数据库表格中。4.根据权利要求1所述的,其特征在于,所述 的步骤3)对经处理后的数据进行逻辑推理和计算步骤如下31)系统第一次运行将所有历史数据下载并结构化分析处理,所有状态相关数据保存 到数据库中;32)下载所有步骤2)处理后的数据;33)设定任务驱动规则,判断步骤2)处理后的数据的关键指标和历史状态是否一致, 若为否,将步骤2)处理后的数据与历史状态对比,得出变化过程。全文摘要本专利技术涉及,该方法包括以下步骤1)获取网页信息;2)对获取的网页信息进行结构化处理;3)对经处理后的数据进行逻辑推理和计算。与现有技术相比,本专利技术具有成本低、效率高、计算功能强大、灵活性好等优点。文档编号G06F17/30GK101807206SQ20101012144公开日2010年8月18日 申请日期2010年3月10日 优先权日2010年3月1本文档来自技高网...

【技术保护点】
一种网络信息垂直搜索与挖掘处理方法,其特征在于,该方法包括以下步骤:1)获取网页信息;2)对获取的网页信息进行结构化处理;3)对经处理后的数据进行逻辑推理和计算。

【技术特征摘要】

【专利技术属性】
技术研发人员:金仲敏张瑞黎贾涛
申请(专利权)人:上海克而瑞信息技术有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1