一种网络信息垂直搜索与挖掘处理方法技术

技术编号：3940554 阅读：224 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种网络信息垂直搜索与挖掘处理方法，该方法包括以下步骤：１）获取网页信息；２）对获取的网页信息进行结构化处理；３）对经处理后的数据进行逻辑推理和计算。与现有技术相比，本发明专利技术具有成本低、效率高、计算功能强大、灵活性好等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种网络资源获取方法，尤其是涉及。
技术介绍
普通的网页搜索比如google是一种泛型搜索，整个结构的最小单位为网页，并不会对网页当中的内容做数据结构化分析和语义分析。前的部分房地产行业垂直技术虽然可以做到一定程度的网页内容分析和数据结构化处理，但仍然缺乏足够深入的信息挖掘，面对需要和地产行业知识紧密相关且需要一定逻辑推理和公式计算的信息提取仍然有很多待解决的问题。而本专利提供的方法旨在解决这一系列问题，诸如新房网络信息中通过复杂公式计算交易相关信息等。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种成本低、效率高、计算功能强大、灵活性好的网络信息垂直搜索与挖掘处理方法。本专利技术的目的可以通过以下技术方案来实现，其特征在于，该方法包括以下步骤1)获取网页信息；2)对获取的网页信息进行结构化处理；3)对经处理后的数据进行逻辑推理和计算。所述的步骤1)获取网页信息步骤如下11)下载并保存任务起始页面信息；12)分析页面信息、分配并保存相关任务；13)启动任务处理单元，获取任务；14)各单元执行各自任务，下载并保存相关页面；15)分析页面信息、分配并保存其他相关任务；16)循环执行13)-15)步骤，直到所有任务处理结束后任务处理单元逐个结束工作，获得Html文件并将其保存。所述的步骤2)对获取的网页信息进行结构化处理步骤如下21)读取下载的Html文件信息；22)将Html文件转为Dom对象，供分析；23)将Dom对象转为XML数据结构，保存到数据库中；24)批量分解XML数据到数据库表格中。所述的步骤3)...

【技术保护点】
一种网络信息垂直搜索与挖掘处理方法，其特征在于，该方法包括以下步骤：１）获取网页信息；２）对获取的网页信息进行结构化处理；３）对经处理后的数据进行逻辑推理和计算。

【技术特征摘要】

【专利技术属性】
技术研发人员：金仲敏，张瑞黎，贾涛，
申请(专利权)人：上海克而瑞信息技术有限公司，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人