一种借助互联网构建分类语料库的方法及系统技术方案

技术编号:20221749 阅读:29 留言:0更新日期:2019-01-28 20:15
本发明专利技术涉及自然语言处理技术,具体涉及一种借助互联网构建分类语料库的方法,包括以下步骤:S1、设置目标类别;S2、设置信息源;S3、信息源评级;S4、信息采集和解析;S5、过滤后备文档语料集;S6、分类语料库输出。本发明专利技术的实质性效果是:在尽量降低人工干预水平的前提下,以互联网中带有明确分类标识和动态更新列表内容的页面为语料信息来源,结合网页排版特征和网页DOM节点拓扑结构特征,提高了网页主题语料提取的准确度,通过目标类别和信息源关键词的匹配评价体系,利用文本间量化相似性筛选互联网动态语料,构建出高质量文本分类语料库。

【技术实现步骤摘要】
一种借助互联网构建分类语料库的方法及系统
本专利技术涉及自然语言处理技术,具体涉及一种借助互联网构建分类语料库的方法及系统。
技术介绍
随着互联网信息的高速增长,搜索引擎已成为人们浏览网络信息必不可少的工具。搜索引擎根据用户提供的关键词检索网站数据库,为用户呈现其感兴趣的网站列表。然而,很多情况下用户很难找到准确描述检索目标的关键词,因此严重影响了返回结果的准确率。尤其是在用户对所需检索的领域缺乏了解的情况下。同时,由于需要索引的网页数目过于庞大,为了兼顾准确率与召回率,传统的通用搜索引擎往往返回属于不同主题的搜索结果,这种策略很难满足单个用户的检索需求。垂直搜索引擎是目前缓解这种问题最好的方案,如学术搜索、金融搜索、音乐搜索等。这类搜索引擎通过限定爬取和索引的网页范围来达到较高的检索精度。通过用户指定的分类来进行搜索,可以更好的满足用户的不同需求。然而,对于某个概念进行分类的方法往往是多样的,比如计算机学科,可以分为软件和硬件,也可以按照涉及的不同子学科分为体系结构,操作系统,计算机网络等等。现有的垂直搜索引擎,一般是根据领域专家事先定义好的分类方式,通过人工的方法标注出训练语料来训练分类器。这个过程费时费力,结果容易受到标注人个人倾向的影响。所以,这样的分类方式难以满足人们对不同领域的分类需求,更无法随用户需求的改变进行灵活调整。同时,网络上有一些网页是具有某些标注信息的或者是已经经过初步分类的,比如门户网站的导航栏一般都分为新闻、军事、博客等等很多子版块,关注于某个特定领域的网站一般都会按照相关领域的某种分类方式来构造。如何构造一种方法,使其能够自动利用这些已有的网页分类信息来自动构建分类语料库,是本专利技术要重点研究和探讨的问题。中国专利CN103823824B,公开日2017年4月5日,一种借助互联网自动构建文本分类语料库的方法及系统,该方法包括如下步骤:用户提供所需的文本类别体系,网站结构与内容的采集整理,用户输入类别与网站结构的匹配,语料库去噪,输出语料库。本专利技术的技术效果是:利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,快速的构建出大容量的文本分类语料库。但其仅采用拓扑结构图的方式作为处理依据,忽视网站网页的排版,准确性不高。中国专利CN103473280B,公开日2017年2月8日,一种网络可比语料的挖掘方法,涉及网络可比语料的挖掘方法,包括:利用网络爬虫获取源语言网页,经预处理后形成源语言文档;分析源语言文档的跨语言主题的概率,产生对应的目标语言查询词;将目标语言查询词提交搜索引擎,选取前N的文档构成目标语言候选相似文档集;计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的文档构建可比语料库。本专利技术避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率;源语言和目标语言相似文档匹配通过主题分布的相似性实现,提高了语料库建设的准确度。其能够实现可对比语料库的构建,但不能对语料按语义分类,无法完成分类语料库的构建任务。
技术实现思路
本专利技术要解决的技术问题是:目前利用互联网构建分类语料库仅依赖节点拓扑结构忽视网页排版而准确性差的技术问题。提出了一种依据网页排版和节点特征结合提取网页内容标签的准确性更高的构建分类语料库的方法及系统。为解决上述技术问题,本专利技术所采取的技术方案为:一种借助互联网构建分类语料库的方法,包括以下步骤:S1、设置目标类别:由用户设置目标类别,并设置若干个初始关键词;S2、设置信息源:由用户提供若干个信息源,或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源,所述每条信息源包括网址以及若干个信息源描述关键词;S3、信息源评级:计算信息源描述关键词与初始关键词的匹配度,根据信息源主体类型以及历史访问数据计算信息源可靠度,根据匹配度和可靠度对每条信息源评级;S4、信息采集和解析:对信息源进行信息采集和解析,获取信息源在设定时间区间内的文档列表,作为后备文档语料集;S5、过滤后备文档语料集:利用文本相似性算法,过滤后备文档语料;S6、分类语料库输出:将过滤后的后备文档语料作为目标类别的分类语料库输出。作为优选,所述设置信息源包括以下步骤:S21、信息源选择:由用户提供若干个信息源,或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源,或者事先建立包括描述关键词的网站索引,根据目标类别,从索引中匹配对应栏目、板块以及兴趣分类作为信息源;S22、构建信息源网页结构分类器:利用基于DOM树的特征提取技术,和基于神经网络的分类技术,获得一个可自动识别信息源页面列表内容和链接地址的分类器;S23、识别信息源合法性:依据信息源网址,利用S22构建的分类器判断该地址是否属于合法信息源,筛选合法的信息源;S24、构建信息源关键词:用户提供的信息源由用户设置信息源关键词,由索引中匹配的信息源从索引中直接读取,由提交搜索引擎获得的信息源将网址标题分词后作为信息源关键词;S25、保存信息源:将设置好信息源关键词的合法信息源作为最终信息源保存。作为优选,所述信息源评级包括以下步骤:S31、信息源匹配度评估:利用目标类别初始关键词集合K和信息源关键词集合Ωi的相似度,作为信息源与目标分类的匹配度Mi,0≤Mi≤1,具体公式如下:Mi=|K∩Ωi|/|Ωi|;S32、信息源可靠度评估:获取信息源地址的历史访问量及访问排名信息ri,结合网址域名后缀,计算信息源可靠度Ri,0≤Ri≤1,具体规则如下:(1)如果域名属于政府部门网站,即网址域名后缀为.gov,则Ri=1;(2)对于其他网址域名后缀:Ri=a1/ri,其中,a为收敛参数,a>1,a越大,信息源可靠度Ri的值随排名的增加下降的更快;S33、信息源过滤:依据S31和S32的计算结果,通过人工设定的匹配度阈值TM和人工设定的可靠度阈值TR,剔除匹配度Mi和可靠度Ri均分别对应低于设定阈值的信息源,获得过滤后的信息源。作为优选,所述信息采集和解析包括以下步骤:S41、信息源获取:利用网络爬虫,获取每个信息源si的HTML页面,并进行页面的DOM树解析;S42、信息源解析:构建信息源网页结构分类器:利用基于DOM树的特征提取技术,和基于神经网络的分类技术,获得一个可自动识别信息源页面列表内容和链接地址的分类器,对于每个信息源si的HTML页面,利用所述分类器,获得信息源页面Pi所包含的内容列表主题内容和二级链接地址S43、后备文本语料获取:获取步骤S42中获得的各个信息源的二级链接Ui对应的HTML页面,并解析其中主要文本内容:作为后备语料;S44、短文本后备语料库输出:组合从所有信息源获得的主题内容,作为面向短文本分类需求的后备语料库H=H1∪H2∪…∪Hm;S45、普通文本后备语料库输出:组合从所有信息源获得二级链接文本内容,作为面向普通本分类需求的后备语料库D=D1∪D2∪…∪Dm。作为优选,所述过滤后备文档语料包括以下步骤:S51、后备文档语料排序:根据步骤S3中获得的信息源匹配度Mi和可靠度Ri,获得综合评分Σi,对后备文档语料按综合评分Σi进行降序排序,获得降序的后备文档语料集本文档来自技高网
...

【技术保护点】
1.一种借助互联网构建分类语料库的方法,其特征在于,包括以下步骤:S1、设置目标类别:由用户设置目标类别,并设置若干个初始关键词;S2、设置信息源:由用户提供若干个信息源,或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源,所述每条信息源包括网址以及若干个信息源描述关键词;S3、信息源评级:计算信息源描述关键词与初始关键词的匹配度,根据信息源主体类型以及历史访问数据计算信息源可靠度,根据匹配度和可靠度对每条信息源评级;S4、信息采集和解析:对信息源进行信息采集和解析,获取信息源在设定时间区间内的文档列表,作为后备文档语料集;S5、过滤后备文档语料集:利用文本相似性算法,过滤后备文档语料;S6、分类语料库输出:将过滤后的后备文档语料作为目标类别的分类语料库输出。

【技术特征摘要】
1.一种借助互联网构建分类语料库的方法,其特征在于,包括以下步骤:S1、设置目标类别:由用户设置目标类别,并设置若干个初始关键词;S2、设置信息源:由用户提供若干个信息源,或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源,所述每条信息源包括网址以及若干个信息源描述关键词;S3、信息源评级:计算信息源描述关键词与初始关键词的匹配度,根据信息源主体类型以及历史访问数据计算信息源可靠度,根据匹配度和可靠度对每条信息源评级;S4、信息采集和解析:对信息源进行信息采集和解析,获取信息源在设定时间区间内的文档列表,作为后备文档语料集;S5、过滤后备文档语料集:利用文本相似性算法,过滤后备文档语料;S6、分类语料库输出:将过滤后的后备文档语料作为目标类别的分类语料库输出。2.根据权利要求1所述的一种借助互联网构建分类语料库的方法,其特征在于,所述设置信息源包括以下步骤:S21、信息源选择:由用户提供若干个信息源,或者由目标类别初始关键词提交搜索引擎检索结果前N条作为互联网信息源,或者事先建立包括描述关键词的网站索引,根据目标类别,从索引中匹配对应栏目、板块以及兴趣分类作为信息源;S22、构建信息源网页结构分类器:利用基于DOM树的特征提取技术,和基于神经网络的分类技术,获得一个可自动识别信息源页面列表内容和链接地址的分类器;S23、识别信息源合法性:依据信息源网址,利用S22构建的分类器判断该地址是否属于合法信息源,筛选合法的信息源;S24、构建信息源关键词:用户提供的信息源由用户设置信息源关键词,由索引中匹配的信息源从索引中直接读取,由提交搜索引擎获得的信息源将网址标题分词后作为信息源关键词;S25、保存信息源:将设置好信息源关键词的合法信息源作为最终信息源保存。3.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法,其特征在于,所述信息源评级包括以下步骤:S31、信息源匹配度评估:利用目标类别初始关键词集合K和信息源关键词集合Ωi的相似度,作为信息源与目标分类的匹配度Mi,0≤Mi≤1,具体公式如下:Mi=|K∩Ωi|/|Ωi|;S32、信息源可靠度评估:获取信息源地址的历史访问量及访问排名信息ri,结合网址域名后缀,计算信息源可靠度Ri,0≤Ri≤1,具体规则如下:(1)如果域名属于政府部门网站,即网址域名后缀为.gov,则Ri=1;(2)对于其他网址域名后缀:Ri=α1/ri,其中,α为收敛参数,α>1,α越大,信息源可靠度Ri的值随排名的增加下降的更快;S33、信息源过滤:依据S31和S32的计算结果,通过设定匹配度阈值TM和可靠度阈值TR,剔除匹配度Mi和可靠度Ri均分别对应低于设定阈值的信息源,获得过滤后的信息源。4.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法,其特征在于,所述信息采集和解析包括以下步骤:S41、信息源获取:利用网络爬虫,获取每个信息源si的HTML页面,并进行页面的DOM树解析;S42、信息源解析:构建信息源网页结构分类器:利用基于DOM树的特征提取技术,和基于神经网络的分类技术,获得一个可自动识别信息源页面列表内容和链接地址的分类器,对于每个信息源si的HTML页面,利用所述分类器,获得信息源页面Pi所包含的内容列表主题内容和二级链接地址S43、后备文本语料获取:获取步骤S42中获得的各个信息源的二级链接Ui对应的HTML页面,并解析其中主要文本内容:作为后备语料;S44、短文本后备语料库输出:组合从所有信息源获得的主题内容,作为面向短文本分类需求的后备语料库H=H1∪H2∪…∪Hm;S45、普通文本后备语料库输出:组合从所有信息源获得二级链接文本内容,作为面向普通本分类需求的后备语料库D=D1∪D2∪…∪Dm。5.根据权利要求1或2所述的一种借助互联网构建分类语料库的方法,其特征在于,所述过滤后备文档语料包括以下步骤:S51、后备文档语料排序:根据步骤S3中获得的信息源匹配度Mi和可靠度Ri,获得综合评分Σi,对后备文档语料按综合评分Σi进行降序排序,获得降序的后备文档语料集合C=<C1,C2,…,Cm>,其中综合评分的计算式为:∑i=Mi×Ri;S52、初始语料选择:选择综合评分Σi大于等于设定阈值的前v个后备文档语料作为合法语料集合E=C1∪C2∪…∪Cv,并将集合E从后备文档语料集合中删除:C=C-E=<Cv+1,Cv+2,…,Cm>;S53、语料库迭代扩展与优化:将后备文档语料集合C中后备文档语料与合法语料集E任意语料文本相似度超过设定阈值的后备文档语料,作为新的合法语料加入合法语料集E中,将最终的合法语料集E作为过滤的后备文档语料。6.根据权利要求2所述的一种借助互联网构建分类语料库的方法,其特征在于,所述构建信息源网页结构分类器包括以下步骤:S2201、确定信息源的通用模块,包括“主题列表”和“文档地址”,并删除不必要的信息节点;S2202、构建信息源样本库;S2203、对信息源样本进行DOM解析,利用DOM解析技术将信息源样本网页解析为DOM树;S2204、信息源样本网页DOM树初步标注,基于DOM节点的排版特征和DOM结构,对样本DOM中的“主题列表”块进行人工标注,作为有监督学习算法的训练数据,具体为:将符合以下标准的DOM树节点标注为主题列表区域MA(MainArea),包括:(1)MA位于页面中央;(2)MA占据...

【专利技术属性】
技术研发人员:闵勇
申请(专利权)人:杭州数湾信息科技有限公司闵勇
类型:发明
国别省市:浙江,33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1