本发明专利技术提供了一种基于百科内容的词条分类方法及装置。该方法包括:从百科内容中提取其对应词条的属性数据,其中,所述属性数据包括属性名和属性值;获取提取的所述属性值对应的词条网页;确定提取的所述属性名的类别,并根据所述属性名的类别确定所述属性值对应的词条网页的类别。本发明专利技术实施例可以直接利用词条的属性数据中属性名的类别来确定属性值对应的词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明专利技术实施例提供的技术方案能够节省人力成本,并且准确率较高。
【技术实现步骤摘要】
本专利技术涉及互联网应用
,特别是一种基于百科内容的词条分类方法及装置。
技术介绍
百科是指天文、地理、自然、人文、宗教、信仰、文学等全部学科的知识的总称。互联网上的百科是一个知识库,是一部内容开放、自由的网络百科全书,其包含了各种各样的词条。种类多是百科的特点,在一些应用中需要对百科词条进行分类(比如人物类、电影作品类、音乐作品类等),由于百科的许多词条是网友参与编辑的,所以并没有明确的分类信息。相关技术中主要利用机器学习的方法对百科词条进行分类,具体地,从百科词条的内容中提取能够代表词条类别的关键词,利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别。然而,利用机器学习来分类,一个是需要人工标注大量的标注集,二是准确率也有限。因此,如何快速、准确地对百科词条进行分类成为亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于百科内容的词条分类方法及相应的装置。依据本专利技术的一方面,提供了一种基于百科内容的词条分类方法,包括:从百科内容中提取其对应词条的属性数据,其中,所述属性数据包括属性名和属性值;获取提取的所述属性值对应的词条网页;确定提取的所述属性名的类别,并根据所述属性名的类别确定所述属性值对应的词条网页的类别。可选地,所述从百科内容中提取其对应词条的属性数据,包括:确定用于提取词条的属性数据的字段;利用确定的所述字段,从百科内容中提取其对应词条的属性数据。可选地,所述从百科内容中提取其对应词条的属性数据,包括:获取百科内容中记载有其对应词条的属性数据的位置信息;根据所述位置信息,从所述百科内容中提取其对应词条的属性数据。可选地,获取百科内容中记载有其对应词条的属性数据的位置信息,包括:在网页模板库中对所述百科内容对应的词条网页进行匹配,获取所述词条网页相对应的网页模板;根据所述词条网页相对应的网页模板,获取所述百科内容中记载有其对应词条的属性数据的位置信息。可选地,所述方法还包括:对于各网站下不同页面类型的词条网页,确定所述不同页面类型的词条网页对应词条的属性数据的位置信息;记录所述不同页面类型的词条网页与所述不同页面类型的词条网页对应词条的属性数据的位置信息之间的对应关系,生成所述网页模板库。可选地,获取提取的所述属性值对应的词条网页之前,所述方法还包括:将提取的所述属性值作为待分类的词条;或者,将与提取的所述属性值匹配的词条作为待分类的词条。可选地,获取提取的所述属性值对应的词条网页,包括:在所述百科内容中获取所述属性值对应的链接地址;将所述链接地址作为所述属性值对应的词条网页。可选地,获取提取的所述属性值对应的词条网页,包括:根据预先建立的词条与词条网页的对应关系,在所述对应关系中查找所述属性值对应的词条网页。可选地,确定提取的所述属性名的类别,包括:将所述属性名转化为标准化的类别字段,并作为所述属性名的类别。可选地,根据所述属性名的类别确定所述属性值对应的词条网页的类别,包括:将所述属性名的类别作为所述属性值对应的词条网页的类别。依据本专利技术的另一方面,还提供了一种基于百科内容的词条分类装置,包括:提取模块,适于从百科内容中提取其对应词条的属性数据,其中,所述属性数据包括属性名和属性值;获取模块,适于获取提取的所述属性值对应的词条网页;确定模块,适于确定提取的所述属性名的类别,并根据所述属性名的类别确定所述属性值对应的词条网页的类别。可选地,所述提取模块还适于:确定用于提取词条的属性数据的字段;利用确定的所述字段,从百科内容中提取其对应词条的属性数据。可选地,所述提取模块还适于:获取百科内容中记载有其对应词条的属性数据的位置信息;根据所述位置信息,从所述百科内容中提取其对应词条的属性数据。可选地,所述提取模块还适于:在网页模板库中对所述百科内容对应的词条网页进行匹配,获取所述词条网页相对应的网页模板;根据所述词条网页相对应的网页模板,获取所述百科内容中记载有其对应词条的属性数据的位置信息。可选地,所述装置还包括生成模块,适于:对于各网站下不同页面类型的词条网页,确定所述不同页面类型的词条网页对应词条的属性数据的位置信息;记录所述不同页面类型的词条网页与所述不同页面类型的词条网页对应词条的属性数据的位置信息之间的对应关系,生成所述网页模板库。可选地,所述获取模块还适于:在获取提取的所述属性值对应的词条网页之前,将提取的所述属性值作为待分类的词条;或者,将与提取的所述属性值匹配的词条作为待分类的词条。可选地,所述获取模块还适于:在所述百科内容中获取所述属性值对应的链接地址;将所述链接地址作为所述属性值对应的词条网页。可选地,所述获取模块还适于:根据预先建立的词条与词条网页的对应关系,在所述对应关系中查找所述属性值对应的词条网页。可选地,所述确定模块还适于:将所述属性名转化为标准化的类别字段,并作为所述属性名的类别。可选地,所述确定模块还适于:将所述属性名的类别作为所述属性值对应的词条网页的类别。在本专利技术实施例中,首先从百科内容中提取其对应词条的属性数据,其中,该属性数据包括属性名和属性值,随后获取提取的属性值对应的词条网页,确定提取的属性名的类别,进而根据属性名的类别确定属性值对应的词条网页的类别。由此可知,本专利技术实施例可以直接利用词条的属性数据中属性名的类别来确定属性值对应的词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本专利技术实施例提供的技术方案能够节省人力成本,并且准确率较高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。根据下文结合附图对本专利技术具体实施例的详细描述,本领域技术人员将会更加明了本专利技术的上述以及其他目的、优点和特征。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的基于百科内容的词条分类方法的流程图;图2示出了根据本专利技术一个实施例的基于百科内容的词条分类装置的结构示意图;以及图3示出了根据本专利技术另一个实施例的基于百科内容的词条分类装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为解决上述技术问题,本专利技术实施例提供了一种基于百科内容的词条分类方法。图1示出了根据本专利技术一个实施例的基于百科内容的词条分类方法的流
程图。如图1所示,该方法至少包括以下步骤S102至步骤S106:步骤S102,从百科内容中提取其对应词条的属性数据,其中,该属性数据包括属性名和属性值;步骤S104,获取提取的属性值对应的词条网页;步骤S106,确定提取的属性名的类别,并根据属本文档来自技高网...
【技术保护点】
一种基于百科内容的词条分类方法,包括:从百科内容中提取其对应词条的属性数据,其中,所述属性数据包括属性名和属性值;获取提取的所述属性值对应的词条网页;确定提取的所述属性名的类别,并根据所述属性名的类别确定所述属性值对应的词条网页的类别。
【技术特征摘要】
1.一种基于百科内容的词条分类方法,包括:从百科内容中提取其对应词条的属性数据,其中,所述属性数据包括属性名和属性值;获取提取的所述属性值对应的词条网页;确定提取的所述属性名的类别,并根据所述属性名的类别确定所述属性值对应的词条网页的类别。2.根据权利要求1所述的方法,其中,所述从百科内容中提取其对应词条的属性数据,包括:确定用于提取词条的属性数据的字段;利用确定的所述字段,从百科内容中提取其对应词条的属性数据。3.根据权利要求1或2所述的方法,其中,所述从百科内容中提取其对应词条的属性数据,包括:获取百科内容中记载有其对应词条的属性数据的位置信息;根据所述位置信息,从所述百科内容中提取其对应词条的属性数据。4.根据权利要求1-3中任一项所述的方法,其中,获取百科内容中记载有其对应词条的属性数据的位置信息,包括:在网页模板库中对所述百科内容对应的词条网页进行匹配,获取所述词条网页相对应的网页模板;根据所述词条网页相对应的网页模板,获取所述百科内容中记载有其对应词条的属性数据的位置信息。5.根据权利要求1-4中任一项所述的方法,其中,还包括:对于各网站下不同页面类型的词条网页,确定所述不同页面类型的词条网页对应词条的属性数据的位置信息;记录所述不同页面类型的词条网页...
【专利技术属性】
技术研发人员:王智广,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。