一种借助互联网构建分类语料库的方法及系统技术方案

技术编号：20221749 阅读：29 留言：0更新日期：2019-01-28 20:15

本发明专利技术涉及自然语言处理技术，具体涉及一种借助互联网构建分类语料库的方法，包括以下步骤：S1、设置目标类别；S2、设置信息源；S3、信息源评级；S4、信息采集和解析；S5、过滤后备文档语料集；S6、分类语料库输出。本发明专利技术的实质性效果是：在尽量降低人工干预水平的前提下，以互联网中带有明确分类标识和动态更新列表内容的页面为语料信息来源，结合网页排版特征和网页DOM节点拓扑结构特征，提高了网页主题语料提取的准确度，通过目标类别和信息源关键词的匹配评价体系，利用文本间量化相似性筛选互联网动态语料，构建出高质量文本分类语料库。

全部详细技术资料下载

【技术实现步骤摘要】
一种借助互联网构建分类语料库的方法及系统
本专利技术涉及自然语言处理技术，具体涉及一种借助互联网构建分类语料库的方法及系统。
技术介绍
随着互联网信息的高速增长，搜索引擎已成为人们浏览网络信息必不可少的工具。搜索引擎根据用户提供的关键词检索网站数据库，为用户呈现其感兴趣的网站列表。然而，很多情况下用户很难找到准确描述检索目标的关键词，因此严重影响了返回结果的准确率。尤其是在用户对所需检索的领域缺乏了解的情况下。同时，由于需要索引的网页数目过于庞大，为了兼顾准确率与召回率，传统的通用搜索引擎往往返回属于不同主题的搜索结果，这种策略很难满足单个用户的检索需求。垂直搜索引擎是目前缓解这种问题最好的方案，如学术搜索、金融搜索、音乐搜索等。这类搜索引擎通过限定爬取和索引的网页范围来达到较高的检索精度。通过用户指定的分类来进行搜索，可以更好的满足用户的不同需求。然而，对于某个概念进行分类的方法往往是多样的，比如计算机学科，可以分为软件和硬件，也可以按照涉及的不同子学科分为体系结构，操作系统，计算机网络等等。现有的垂直搜索引擎，一般是根据领域专家事先定义好的分类方式，通过人工的方法标注出训练语料来训练分类器。这个过程费时费力，结果容易受到标注人个人倾向的影响。所以，这样的分类方式难以满足人们对不同领域的分类需求，更无法随用户需求的改变进行灵活调整。同时，网络上有一些网页是具有某些标注信息的或者是已经经过初步分类的，比如门户网站的导航栏一般都分为新闻、军事、博客等等很多子版块，关注于某个特定领域的网站一般都会按照相关领域的某种分类方式来构造。如何构造一种方法，使其能够自动...

【技术保护点】
1.一种借助互联网构建分类语料库的方法，其特征在于，包括以下步骤：S1、设置目标类别：由用户设置目标类别，并设置若干个初始关键词；S2、设置信息源：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，所述每条信息源包括网址以及若干个信息源描述关键词；S3、信息源评级：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；S4、信息采集和解析：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；S5、过滤后备文档语料集：利用文本相似性算法，过滤后备文档语料；S6、分类语料库输出：将过滤后的后备文档语料作为目标类别的分类语料库输出。

【技术特征摘要】
1.一种借助互联网构建分类语料库的方法，其特征在于，包括以下步骤：S1、设置目标类别：由用户设置目标类别，并设置若干个初始关键词；S2、设置信息源：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，所述每条信息源包括网址以及若干个信息源描述关键词；S3、信息源评级：计算信息源描述关键词与初始关键词的匹配度，根据信息源主体类型以及历史访问数据计算信息源可靠度，根据匹配度和可靠度对每条信息源评级；S4、信息采集和解析：对信息源进行信息采集和解析，获取信息源在设定时间区间内的文档列表，作为后备文档语料集；S5、过滤后备文档语料集：利用文本相似性算法，过滤后备文档语料；S6、分类语料库输出：将过滤后的后备文档语料作为目标类别的分类语料库输出。2.根据权利要求1所述的一种借助互联网构建分类语料库的方法，其特征在于，所述设置信息源包括以下步骤：S21、信息源选择：由用户提供若干个信息源，或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源，或者事先建立包括描述关键词的网站索引，根据目标类别，从索引中匹配对应栏目、板块以及兴趣分类作为信息源；S22、构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器；S23、识别信息源合法性：依据信息源网址，利用S22构建的分类器判断该地址是否属于合法信息源，筛选合法的信息源；S24、构建信息源关键词：用户提供的信息源由用户设置信息源关键词，由索引中匹配的信息源从索引中直接读取，由提交搜索引擎获得的信息源将网址标题分词后作为信息源关键词；S25、保存信息源：将设置好信息源关键词的合法信息源作为最终信息源保存。3.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法，其特征在于，所述信息源评级包括以下步骤：S31、信息源匹配度评估：利用目标类别初始关键词集合K和信息源关键词集合Ωi的相似度，作为信息源与目标分类的匹配度Mi，0≤Mi≤1，具体公式如下：Mi＝|K∩Ωi|/|Ωi|；S32、信息源可靠度评估：获取信息源地址的历史访问量及访问排名信息ri，结合网址域名后缀，计算信息源可靠度Ri，0≤Ri≤1，具体规则如下：(1)如果域名属于政府部门网站，即网址域名后缀为.gov，则Ri＝1；(2)对于其他网址域名后缀：Ri＝α1/ri，其中，α为收敛参数，α>1，α越大，信息源可靠度Ri的值随排名的增加下降的更快；S33、信息源过滤：依据S31和S32的计算结果，通过设定匹配度阈值TM和可靠度阈值TR，剔除匹配度Mi和可靠度Ri均分别对应低于设定阈值的信息源，获得过滤后的信息源。4.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法，其特征在于，所述信息采集和解析包括以下步骤：S41、信息源获取：利用网络爬虫，获取每个信息源si的HTML页面，并进行页面的DOM树解析；S42、信息源解析：构建信息源网页结构分类器：利用基于DOM树的特征提取技术，和基于神经网络的分类技术，获得一个可自动识别信息源页面列表内容和链接地址的分类器，对于每个信息源si的HTML页面，利用所述分类器，获得信息源页面Pi所包含的内容列表主题内容和二级链接地址S43、后备文本语料获取：获取步骤S42中获得的各个信息源的二级链接Ui对应的HTML页面，并解析其中主要文本内容：作为后备语料；S44、短文本后备语料库输出：组合从所有信息源获得的主题内容，作为面向短文本分类需求的后备语料库H＝H1∪H2∪…∪Hm；S45、普通文本后备语料库输出：组合从所有信息源获得二级链接文本内容，作为面向普通本分类需求的后备语料库D＝D1∪D2∪…∪Dm。5.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法，其特征在于，所述过滤后备文档语料包括以下步骤：S51、后备文档语料排序：根据步骤S3中获得的信息源匹配度Mi和可靠度Ri，获得综合评分Σi，对后备文档语料按综合评分Σi进行降序排序，获得降序的后备文档语料集合C＝<C1，C2，…，Cm>，其中综合评分的计算式为：∑i＝Mi×Ri；S52、初始语料选择：选择综合评分Σi大于等于设定阈值的前v个后备文档语料作为合法语料集合E＝C1∪C2∪…∪Cv，并将集合E从后备文档语料集合中删除：C＝C-E＝<Cv+1，Cv+2，…，Cm>；S53、语料库迭代扩展与优化：将后备文档语料集合C中后备文档语料与合法语料集E任意语料文本相似度超过设定阈值的后备文档语料，作为新的合法语料加入合法语料集E中，将最终的合法语料集E作为过滤的后备文档语料。6.根据权利要求2所述的一种借助互联网构建分类语料库的方法，其特征在于，所述构建信息源网页结构分类器包括以下步骤：S2201、确定信息源的通用模块，包括“主题列表”和“文档地址”，并删除不必要的信息节点；S2202、构建信息源样本库；S2203、对信息源样本进行DOM解析，利用DOM解析技术将信息源样本网页解析为DOM树；S2204、信息源样本网页DOM树初步标注，基于DOM节点的排版特征和DOM结构，对样本DOM中的“主题列表”块进行人工标注，作为有监督学习算法的训练数据，具体为：将符合以下标准的DOM树节点标注为主题列表区域MA(MainArea)，包括：(1)MA位于页面中央；(2)MA占据...

【专利技术属性】
技术研发人员：闵勇，
申请(专利权)人：杭州数湾信息科技有限公司，闵勇，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人