一种基于Web页面的大规模数据生成方法及系统技术方案

技术编号:9865864 阅读:137 留言:0更新日期:2014-04-03 01:09
本发明专利技术公开了一种基于Web页面的大规模数据生成方法,通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和URL赋值,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入URL,使得在生成的数据中,入度的总和是等于出度的总和。通过提取小规模的真实数据的特征来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。

【技术实现步骤摘要】
一种基于Web页面的大规模数据生成方法及系统
本专利技术涉及页面入出度统计和web页面的数据生成,尤其涉及一种基于Web页面的大规模数据生成方法。
技术介绍
随着互联网、物联网技术的快速发展和数字信息的急速膨胀,数据中心存储的数据量越来越大。数据中心的应用的主要目的是从海量数据中获取信息,并将这些信息提供给用户。这就体现出来数据中心计算的核心就是数据。而大量的应用围绕着web页面数据,如Search、Index、bayes等,在这里数据的主要用途是用来测试一些算法的计算性能,和作为benchmark时处理数据得到的结果来分析一个系统的性能。同时如果想获得大规模的真实数据需要大量的人力、物力还有时间,这样就会浪费很多的资源。有些大公司拥有大量的真实web页面,如google、baidu等,而大公司由于商业价值的原因不会公开大规模真实的web页面数据。对于一些新兴的公司想对基于网页应用进行研发而得不到大量的真实数据,这样将使得研发结果受限。现有生成web网页的方法有随机生成,如hadoopexample里面的sort、wordcount等;概率模型生成,如HiBench采用的Zipf分布;和拷贝复制数据这几种方法。而web网页的基本构成是一些文字和URL的交织体。网页中的URL和文字存在着一些特有的关系:如导航、Index页面,存有大量的URL和少量文字。而如博客这种类型的网页则是相对文字较多,而URL较少。用现有的方法来生成这样的web网页往往会存在很多的问题,如采用完全随机生成的网页数据将会破坏数据内容的真实性,这样就不适用于页面处理的应用,如搜索引擎;随机生成和概率模型生成的数据脱离了真实数据的内在规律性,不能体现正常网页中出入度的关联。而简单的复制拷贝的网页群之间不会有链接,会出现孤岛。图1为复制拷贝出现的孤岛现象图,通过原始的四个网页来生成数据,使用拷贝出来的大规模数据,而拷贝出来的数据之间不存在链接,都是以四个网页原有的连接为模型来生成的一块一块的数据,这就出现了孤岛,而且每一块数据之间的连接都是和原始网页相同的。可见,使用随机生成的大规模数据来进行相关的实验研究得到的结果不是很有说服力,现有的方法来生成大规模的真实性数据存在孤岛等问题,生成后用来做研究得到的实验结果就会存在真实性问题。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提出了一种基于小规模真实数据生成大规模数据的方法及系统,解决在对数据中心应用进行研究时,所使用的数据的真实性问题。具体地说,本专利技术公开了一种基于Web页面的大规模数据生成方法,通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和URL赋值,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入URL,使得在生成的数据中,入度的总和是等于出度的总和。所述的基于Web页面的大规模数据生成方法,包括如下步骤:步骤S1、统计种子页面信息包括文本信息和URL信息;步骤S11、统计文本长度给种子页面分类:统计种子网页中的文本长度是将文档按长度进行分类,计算每一类出现的概率P(k):P(k)=k类中网页的总数量/种子网页总数量。步骤S12、统计种子页面中文本中的词频:统计种子页面中出现词的概率是统计每个词在整个种子网页中出现的概率P(w),概率P(w)=词w出现的总数/种子网页中所有词的总个数。步骤S13、统计种子页面中URL的入出度条件概率:统计在特定文档长度下的入出度条件概率时,首先去除种子网页中的死链,然后在统计每一个类网页中的入度和出度的条件概率P(d|k)。步骤S2、根据种子页面信息生成web页面。步骤S21、根据分析得到的概率P(k)生成每个类中页面的数量,用每一类的P(k)乘以要生成的网页总数,来获得每个类别中应生成的网页数,按照概率模型可以获得每一类中特定长度的网页数量;步骤S22、根据分析得到的概率P(w)生成符合网页长度的内容,通过按每个词在种子页面中出现的概率生成词,然后注入到将生成的网页中;步骤S23、根据分析得到的概率P(d|k)向网页中添加URL;在每一类中根据P(d|k)给每个网页赋入出度的值,再根据这个入出度的值产生相应的URL,在添加URL的时候如果没有满足入出度条件则返回继续添加,直到满足条件时即可。所述的基于Web页面的大规模数据生成方法,其特征在于,向网页之间添加URL包括如下步骤:当添加到某一ID号的现有入出度信息和应有入出度信息相同时,就把这一ID号的网页入出度情况从这个数据结构结果中删除,则表示添加的入出度已完成;寻找存在表格中没有删除的信息继续添加,直到数据结构中没有存在的信息则表示全部的入出度添加结束。本专利技术还公开了一种基于Web页面的大规模数据生成系统,包括:统计模块,用于统计种子页面信息包括文本信息和URL信息;页面生成模块,用于根据种子页面信息生成web页面。所述的基于Web页面的大规模数据生成系统,统计模块包括:分类计算模块,用于统计文本长度给种子页面分类,统计种子网页中的文本长度是将文档按长度进行分类,计算每一类出现的概率P(k):P(k)=k类中网页的总数量/种子网页总数量;词频统计模块,用于统计种子页面中出现词的概率是统计每个词在整个种子网页中出现的概率P(w),概率P(w)=词w出现的总数/种子网页中所有词的总个数;入出度条件概率统计模块,用于统计在特定文档长度下的入出度条件概率时,首先去除种子网页中的死链,然后在统计每一个类网页中的入度和出度的条件概率P(d|k)。所述的基于Web页面的大规模数据生成系统,页面生成模块包括:网页数量模块,用于根据分析得到的概率P(k)生成每个类中页面的数量,用每一类的P(k)乘以要生成的网页总数,来获得每个类别中应生成的网页数,按照概率模型可以获得每一类中特定长度的网页数量;注入模块,用于根据分析得到的概率P(w)生成符合网页长度的内容,通过按每个词在种子页面中出现的概率生成词,然后注入到将生成的网页中;添加模块,用于根据分析得到的概率P(d|k)向网页中添加URL;在每一类中根据P(d|k)给每个网页赋入出度的值,再根据这个入出度的值产生相应的URL,在添加URL的时候如果没有满足入出度条件则返回继续添加,直到满足条件。综上,用现有的方法来生成的数据对研究基于网页的应用和评价数据中心系统而言,得到的结果会存在问题,本专利技术使用真实小规模数据来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。通过提取小规模的真实数据的特征,进而基于获得的特征来生成大规模的数据。附图说明图1为现有技术的复制拷贝出现的孤岛现象图;图2为本专利技术大数据网页生产;图3为通过种子页面的信息生成大规模数据流程图;图4来说明入出度的URL添加过程。具体实施方式本专利技术数据生成方法是通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和URL赋值法则是根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入URL。详细步骤如下:步骤S1、统计种子页面信息种子页面为能够获得的小规模真实w本文档来自技高网
...
一种基于Web页面的大规模数据生成方法及系统

【技术保护点】
一种基于Web页面的大规模数据生成方法,其特征在于,通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和URL赋值生成web页面,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入URL,使得在生成的数据中,入度的总和是等于出度的总和。

【技术特征摘要】
1.一种基于Web页面的数据生成方法,其特征在于,通过将原始种子网页按长度分类的方式,依据原始网页的长度和词频信息生成文本数据,入出度生成和URL赋值生成web页面,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用现有入出度值向网页中插入URL,使得在生成的数据中,入度的总和是等于出度的总和,其中具体包括步骤S1、统计种子页面信息包括文本信息和URL信息;步骤S2、根据种子页面信息生成web页面;所述步骤S1包括步骤S11、步骤S12、步骤S13,所述步骤S11、统计文本长度给种子页面分类:统计种子网页中的文本长度是将文档按长度进行分类,计算每一类出现的概率P(k):P(k)=k类中网页的总数量/种子网页总数量;所述步骤S12、统计种子页面中文本中的词频:统计种子页面中出现词的概率是统计每个词在整个种子网页中出现的概率P(w),概率P(w)=词w出现的总数/种子网页中所有词的总个数;所述步骤S13、统计种子页面中URL的入出度条件概率:统计在特定文档长度下的入出度条件概率时,首先去除种子网页中的死链,然后再统计每一个类网页中的入度和出度的条件概率P(d|k),其中d为一个2元组的入出度统计信息;所述步骤S2包括步骤S21、步骤S22、步骤S23,所述步骤S21、根据分析得到的概率P(k)生成每个类中页面的数量,用每一类的P(k)乘以要生成的网页总数,来获得每个类别中应生成的网页数,按照概率模型可以获得每一类中特定长度的网页数量;所述步骤S22、根据分析得到的概率P(w)生成符合网页长度的内容,通过按每个词在种子页面中出现的概率生成词,然后注入到将生成的网页中;所述步骤S23、根据分析得到的概率P(d|k)向网页中添加URL;在每一类中根据P(d|k)给每个网页赋入出度的值,再根据给每个网页赋入出度的值产生相应的URL,在添加URL的时候如果没有满足入出度条件则返回继续添加,直到满足条件时即可。2.如权利要求1所述的基于Web页面的数据生成方法,其特征在于,向网页之间添加URL包括如下步骤:当添加到某一ID号的现有入出度信息和...

【专利技术属性】
技术研发人员:贾禛吕杰王磊权静詹剑锋张立新
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1