一种基于Web页面的大规模数据生成方法及系统技术方案

技术编号：9865864 阅读：150 留言：0更新日期：2014-04-03 01:09

本发明专利技术公开了一种基于Web页面的大规模数据生成方法，通过将原始小规模种子网页按长度分类的方式，依据原始网页的长度和词频信息生成大规模的文本数据，入出度生成和URL赋值，则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值，利用已有入出度值向网页中插入URL，使得在生成的数据中，入度的总和是等于出度的总和。通过提取小规模的真实数据的特征来生成大规模的相对真实可靠的数据来提供给数据中心的应用，从而使得到的研究结果有更加真实。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Web页面的大规模数据生成方法及系统
本专利技术涉及页面入出度统计和web页面的数据生成，尤其涉及一种基于Web页面的大规模数据生成方法。
技术介绍
随着互联网、物联网技术的快速发展和数字信息的急速膨胀，数据中心存储的数据量越来越大。数据中心的应用的主要目的是从海量数据中获取信息，并将这些信息提供给用户。这就体现出来数据中心计算的核心就是数据。而大量的应用围绕着web页面数据，如Search、Index、bayes等，在这里数据的主要用途是用来测试一些算法的计算性能，和作为benchmark时处理数据得到的结果来分析一个系统的性能。同时如果想获得大规模的真实数据需要大量的人力、物力还有时间，这样就会浪费很多的资源。有些大公司拥有大量的真实web页面，如google、baidu等，而大公司由于商业价值的原因不会公开大规模真实的web页面数据。对于一些新兴的公司想对基于网页应用进行研发而得不到大量的真实数据，这样将使得研发结果受限。现有生成web网页的方法有随机生成，如hadoopexample里面的sort、wordcount等；概率模型生成，如HiBench采用的Zipf分布；和拷贝复制数据这几种方法。而web网页的基本构成是一些文字和URL的交织体。网页中的URL和文字存在着一些特有的关系：如导航、Index页面，存有大量的URL和少量文字。而如博客这种类型的网页则是相对文字较多，而URL较少。用现有的方法来生成这样的web网页往往会存在很多的问题，如采用完全随机生成的网页数据将会破坏数据内容的真实性，这样就不适用于页面处理的应用，如搜索引擎；随...
一种基于Web页面的大规模数据生成方法及系统

【技术保护点】
一种基于Web页面的大规模数据生成方法，其特征在于，通过将原始小规模种子网页按长度分类的方式，依据原始网页的长度和词频信息生成大规模的文本数据，入出度生成和URL赋值生成web页面，则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值，利用已有入出度值向网页中插入URL，使得在生成的数据中，入度的总和是等于出度的总和。

【技术特征摘要】
1.一种基于Web页面的数据生成方法，其特征在于，通过将原始种子网页按长度分类的方式，依据原始网页的长度和词频信息生成文本数据，入出度生成和URL赋值生成web页面，则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值，利用现有入出度值向网页中插入URL，使得在生成的数据中，入度的总和是等于出度的总和，其中具体包括步骤S1、统计种子页面信息包括文本信息和URL信息；步骤S2、根据种子页面信息生成web页面；所述步骤S1包括步骤S11、步骤S12、步骤S13，所述步骤S11、统计文本长度给种子页面分类：统计种子网页中的文本长度是将文档按长度进行分类，计算每一类出现的概率P(k)：P(k)＝k类中网页的总数量/种子网页总数量；所述步骤S12、统计种子页面中文本中的词频：统计种子页面中出现词的概率是统计每个词在整个种子网页中出现的概率P(w)，概率P(w)＝词w出现的总数/种子网页中所有词的总个数；所述步骤S13、统计种子页面中URL的入出度条件概率：统计在特定文档长度下的入出度条件概率时，首先去除种子网页中的死链，然后再统计每一个类网页中的入度和出度的条件概率P(d|k)，其中d为一个2元组的入出度统计信息；所述步骤S2包括步骤S21、步骤S22、步骤S23，所述步骤S21、根据分析得到的概率P(k)生成每个类中页面的数量，用每一类的P(k)乘以要生成的网页总数，来获得每个类别中应生成的网页数，按照概率模型可以获得每一类中特定长度的网页数量；所述步骤S22、根据分析得到的概率P(w)生成符合网页长度的内容，通过按每个词在种子页面中出现的概率生成词，然后注入到将生成的网页中；所述步骤S23、根据分析得到的概率P(d|k)向网页中添加URL；在每一类中根据P(d|k)给每个网页赋入出度的值，再根据给每个网页赋入出度的值产生相应的URL，在添加URL的时候如果没有满足入出度条件则返回继续添加，直到满足条件时即可。2.如权利要求1所述的基于Web页面的数据生成方法，其特征在于，向网页之间添加URL包括如下步骤：当添加到某一ID号的现有入出度信息和...

【专利技术属性】
技术研发人员：贾禛，吕杰，王磊，权静，詹剑锋，张立新，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人