互联网数据的提取方法和装置制造方法及图纸

技术编号:10072757 阅读:178 留言:0更新日期:2014-05-23 19:14
本发明专利技术公开了一种互联网数据的提取方法和装置。其中,该互联网数据的提取方法包括:获取用户的数据样本库,其中,数据样本库包括用户的浏览互联网数据;按照网页链接信息源对数据样本库中的数据进行处理,得到用户的第一特性化参数;按照网页词频特征对数据样本库中的数据进行处理,得到用户的第二特性化参数;按照网页信息类别对数据样本库中的数据进行处理,得到用户的第三特性化参数;以及提取互联网数据中与第一特性化参数、第二特性化参数和第三特性化参数均匹配的数据。通过本发明专利技术,解决了现有技术中根据特性化参数提取互联网数据不准确的问题,进而达到了根据特性化参数准确提取互联网数据的效果。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体而言,涉及一种互联网数据的提取方法和装置
技术介绍
目前,对网页进行分类,并基于分类查找信息的技术已经普及,常用的分类技术有以下几种:网页链接信息源分类法:利用网页链接信息源分类法进行分类往往需要人工的介入,随着互联网信息的大量增加,也使得利用网页来源分类法进行分类的工作量太大,覆盖全部的网站进行网页来源分类越来越困难,且在网页来源的主题超出已设定的类别时,就会出现分类错误,按照网页链接信息源分类法来确定用户的特性化参数,导致根据该特性化参数无法准确找到用户期望的结果。网页词频特征分类法:按照网页词频特征分类法确定的用户特性化参数为关键词,但是通过关键字库得到查询结果,但是该查询结果是一个庞大的网页链接集合,很多不是用户想要的结果,必须对这些网页逐个查看选择所需信息,浪费大量时间也无法找出用户想要的内容。网页信息类别分类法:针对预定文件选出有效的元数据,建立受控词表,利用标签之间的语义关系进行网页分类,但是利用该方法无法适应大规模网页信息抽取的需要,无法在大规模网页信息中准确提取用户的特性化参数,从而无法准确提取用户需要的互联网数据。针对现有技术中根据特性化参数提取互联网数据不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种互联网数据的提取方法和装置,以解决现有技术中根据特性化参数提取互联网数据不准确的问题。r>为了实现上述目的,根据本专利技术的一个方面,提供了一种互联网数据的提取方法。根据本专利技术的互联网数据的提取方法包括:获取用户的数据样本库,其中,数据样本库包括用户的浏览互联网数据;按照网页链接信息源对数据样本库中的数据进行处理,得到用户的第一特性化参数;按照网页词频特征对数据样本库中的数据进行处理,得到用户的第二特性化参数;按照网页信息类别对数据样本库中的数据进行处理,得到用户的第三特性化参数;以及提取互联网数据中与第一特性化参数、第二特性化参数和第三特性化参数均匹配的数据。进一步地,在提取互联网数据中与第一特性化参数、第二特性化参数和第三特性化参数均匹配的数据之前,互联网数据的提取方法还包括:接收用户对第一特性化参数、第二特性化参数和第三特性化参数中任意一个或多个特性化参数的调整指令;按照调整指令对第一特性化参数、第二特性化参数和第三特性化参数中任意一个或多个特性化参数进行调整,得到调整后的特性化参数,提取互联网数据中与第一特性化参数、第二特性化参数和第三特性化参数均匹配的数据包括:提取互联网数据中与调整后的特性化参数匹配的数据。进一步地,在按照调整指令对第一特性化参数、第二特性化参数和第三特性化参数中任意一个或多个特性化参数进行调整,得到调整后的特性化参数之后,互联网数据的提取方法包括:检查调整后的特性化参数是否满足预设条件;如果调整后的特性化参数满足预设条件,则将按照调整后的特性化参数提取互联网数据中与调整后的特性化参数匹配的数据;以及如果调整后的特性化参数不满足预设条件,则输出报警文件。进一步地,预设条件包括调整后的特性化参数的个数、特性化参数的参数权值和特性化参数的赋值内容,检查调整后的特性化参数是否满足预设条件包括:检查调整后的特性化参数的个数是否满足第一预设条件;检查调整后的特性化参数中每个参数的参数权值是否满足第二预设条件;以及检查调整后的特性化参数中每个参数的赋值内容是否满足第三预设条件,其中,如果调整后的特性化参数的个数满足第一预设条件,调整后的特性化参数中每个参数的参数权值满足第二预设条件且调整后的特性化参数中每个参数的赋值内容满足第三预设条件,则确定调整后的特性化参数满足预设条件,如果调整后的特性化参数的个数不满足第一预设条件,调整后的特性化参数中任一参数的参数权值不满足第二预设条件或者调整后的特性化参数中任一参数的赋值内容不满足第三预设条件,则确定调整后的特性化参数不满足预设条件。进一步地,互联网数据的提取方法还包括:根据第一特性化参数、第二特性化参数和第三特性化参数生成特性化报告;以及展示特性化报告。为了实现上述目的,根据本专利技术的另一方面,提供了一种互联网数据的提取装置。根据本专利技术的互联网数据的提取装置包括:获取单元,用于获取用户的数据样本库,其中,数据样本库包括用户的浏览互联网数据;第一确定单元,用于按照网页链接信息源对数据样本库中的数据进行处理,得到用户的第一特性化参数;第二确定单元,用于按照网页词频特征对数据样本库中的数据进行处理,得到用户的第二特性化参数;第三确定单元,用于按照网页信息类别对数据样本库中的数据进行处理,得到用户的第三特性化参数;以及第一提取单元,用于提取互联网数据中与第一特性化参数、第二特性化参数和第三特性化参数均匹配的数据。进一步地,互联网数据的提取装置还包括:接收单元,用于在提取互联网数据中与第一特性化参数、第二特性化参数和第三特性化参数均匹配的数据之前,接收用户对第一特性化参数、第二特性化参数和第三特性化参数中任意一个或多个特性化参数的调整指令;调整单元,用于按照调整指令对第一特性化参数、第二特性化参数和第三特性化参数中任意一个或多个特性化参数进行调整,得到调整后的特性化参数,第一提取单元包括提取模块,提取模块用于提取互联网数据中与调整后的特性化参数匹配的数据。进一步地,互联网数据的提取装置包括:检查单元,用于在按照调整指令对第一特性化参数、第二特性化参数和第三特性化参数中任意一个或多个特性化参数进行调整,得到调整后的特性化参数之后,检查调整后的特性化参数是否满足预设条件;第二提取单元,用于在调整后的特性化参数满足预设条件时,将按照调整后的特性化参数提取互联网数据中与调整后的特性化参数匹配的数据;以及输出单元,用于在调整后的特性化参数不满足预设条件时,输出报警文件。进一步地,预设条件包括调整后的特性化参数的个数、特性化参数的参数权值和特性化参数的赋值内容,检查单元包括:第一检查模块,用于检查调整后的特性化参数的个数是否满足第一预设条件;第二检查模块,用于检查调整后的特性化参数中每个参数的参数权值是否满足第二预设条件;以及第三检查模块,用于检查调整后的特性化参数中每个参数的赋值内容是否满足第三预设条件,其中,如果调整后的特性化参数的个数满足第一预设条件,调整后的特性化参数中每个参数的参数权值满足第二预设条件且调整后的特性化参数中每个参数的赋值内容满足第三预设条件,则确定调整后的特性化参数满足预设条件,如果本文档来自技高网...

【技术保护点】
一种互联网数据的提取方法,其特征在于,包括:获取用户的数据样本库,其中,所述数据样本库包括所述用户的浏览互联网数据;按照网页链接信息源对所述数据样本库中的数据进行处理,得到所述用户的第一特性化参数;按照网页词频特征对所述数据样本库中的数据进行处理,得到所述用户的第二特性化参数;按照网页信息类别对所述数据样本库中的数据进行处理,得到所述用户的第三特性化参数;以及提取互联网数据中与所述第一特性化参数、所述第二特性化参数和所述第三特性化参数均匹配的数据。

【技术特征摘要】
1.一种互联网数据的提取方法,其特征在于,包括:
获取用户的数据样本库,其中,所述数据样本库包括所述用户的浏览互联网
数据;
按照网页链接信息源对所述数据样本库中的数据进行处理,得到所述用户的
第一特性化参数;
按照网页词频特征对所述数据样本库中的数据进行处理,得到所述用户的第
二特性化参数;
按照网页信息类别对所述数据样本库中的数据进行处理,得到所述用户的第
三特性化参数;以及
提取互联网数据中与所述第一特性化参数、所述第二特性化参数和所述第三
特性化参数均匹配的数据。
2.根据权利要求1所述的互联网数据的提取方法,其特征在于,
在提取互联网数据中与所述第一特性化参数、所述第二特性化参数和所述第
三特性化参数均匹配的数据之前,所述互联网数据的提取方法还包括:
接收所述用户对所述第一特性化参数、所述第二特性化参数和所述第三特性
化参数中任意一个或多个特性化参数的调整指令;
按照所述调整指令对所述第一特性化参数、所述第二特性化参数和所述第三
特性化参数中任意一个或多个特性化参数进行调整,得到调整后的特性化参数,
提取互联网数据中与所述第一特性化参数、所述第二特性化参数和所述第三
特性化参数均匹配的数据包括:提取所述互联网数据中与所述调整后的特性化参
数匹配的数据。
3.根据权利要求2所述的互联网数据的提取方法,其特征在于,在按照所述调整指
令对所述第一特性化参数、所述第二特性化参数和所述第三特性化参数中任意一
个或多个特性化参数进行调整,得到调整后的特性化参数之后,所述互联网数据
的提取方法包括:
检查所述调整后的特性化参数是否满足预设条件;
如果所述调整后的特性化参数满足所述预设条件,则将按照所述调整后的特
性化参数提取所述互联网数据中与所述调整后的特性化参数匹配的数据;以及
如果所述调整后的特性化参数不满足所述预设条件,则输出报警文件。
4.根据权利要求3所述的互联网数据的提取方法,其特征在于,所述预设条件包括
所述调整后的特性化参数的个数、所述特性化参数的参数权值和所述特性化参数
的赋值内容,检查所述调整后的特性化参数是否满足预设条件包括:
检查所述调整后的特性化参数的个数是否满足第一预设条件;
检查所述调整后的特性化参数中每个参数的参数权值是否满足第二预设条
件;以及
检查所述调整后的特性化参数中每个参数的赋值内容是否满足第三预设条
件,
其中,如果所述调整后的特性化参数的个数满足所述第一预设条件,所述调
整后的特性化参数中每个参数的参数权值满足所述第二预设条件且所述调整后的
特性化参数中每个参数的赋值内容满足所述第三预设条件,则确定所述调整后的
特性化参数满足所述预设条件,如果所述调整后的特性化参数的个数不满足所述
第一预设条件,所述调整后的特性化参数中任一参数的参数权值不满足所述第二
预设条件或者所述调整后的特性化参数中任一参数的赋值内容不满足所述第三预
设条件,则确定所述调整后的特性化参数不满足所述预设条件。
5.根据权利要求1所述的互联网数据的提取方法,其特征在于,所述互联网数据的
提取方法还包括:
根据所述第一特性化参数、所述第二特性化参数和所述第三特性化参数生成
特性化报告;以及
展示所述特性化报告。
6.一种互联网数据的提取装置,其特征在于,包括:
获取单元,用于获取用户的数据样本库,其中...

【专利技术属性】
技术研发人员:杨文川李瑞商智栋张志诚瞿庆义马鹏飞陈贺
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1