本发明专利技术公布了一种面向链接数据的实体分类方法和系统,针对链接数据的实体分类问题,包括预处理、统计分类和后处理过程;其中,预处理通过对实体页面中的文本描述信息进行分词;由信息框的属性名和分词得到的词信息构成实体页面特征;统计分类过程采用多种切分粒度来训练统计分类模型对实体页面进行分类,得到实体类别的初步预测结果;后处理过程对实体统计分类结果进行修正,包括模型融合、语言知识、链接信息以及利用类别关联属性信息对融合后的实体类别进行修正等方法。本发明专利技术技术方案易实现、易调试、效率高、精度好,适合用来链接数据进行知识管理;能够实现对实体进行高精准分类。
【技术实现步骤摘要】
本专利技术属于信息处理领域,涉及链接数据分类和搜索,尤其涉及一种面向链接数据中的实体页面进行高精准分类的方法和系统。
技术介绍
目前处在大数据时代,如何最大限度地利用数据来帮助计算机进行信息处理已经成为了当前信息处理领域最热门的研究课题。近年来,随着Web2.0时代的到来,链接数据(例如语义网、知识图谱等)因为其强大的关系描述能力,得到了人们的广泛关注。链接数据是指象百度百科、维基百科的数据组织形式,这种数据中,每个页面对应一个实体,实体间有相互的链接,因此被称为链接数据(linked data)。随着数据规模的不断增大,采用人工方法管理链接数据已经不现实,迫切需要能够对链接数据进行知识管理的高效方法和系统。链接数据的实体分类是链接数据知识管理领域的一个重要技术问题,针对链接数据进行实体分类,能够有效地组织链接数据中大量的实体页面,从而加强用户搜索和阅读的体验。目前,实体分类的常用方法是针对实体的描述文本进行分类。但是,这种简单的方法在很多情况下并不能够准确地分析出实体的类别,其不足主要表现在:(一)对于人来说,尽管根据文本描述来判断实体类别是一件很容易的事情,但是对于目前基于特征的统计分类方法而言,想要高精准地通过文本描述判断实体类别并不现实;例如,文本“X是根据著名游戏改编的动画”与“A是根据著名动画制作的游戏”在词汇级别有着非常相似的表示,但是前者是对一个动画实体的描述而后者是对游戏实体的描述,其描述的实体类型完全不同。因此,单纯基于文本特征的统计分类方法识别精度不足,并不能精准地获得实体类别。(二)很多实体页面并没有足够的文本描述信息,这种情况下,单纯利用文本描述信息来对实体进行分类,必然会导致分类错误,通过文本描述无法得到实体类别。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种面向链接数据的实体分类方法和系统,针对链接数据的实体分类问题,通过统计分类过程和后处理过程来达到高精准实体分类的目的;其中,统计分类过程通过针对文本信息建模来进行分类;后处理过程利用丰富资源(例如词缀信息、链接数据等信息)对实体统计分类的结果进行修正,包括模型融合、语言知识、链接信息以及利用类别关联属性信息对融合后的实体类别进行修正等方法。链接数据中的实体页面通常包含文本描述和信息框(infobox)。本专利技术将文本描述进行切分以后,将信息框(infobox)属性名连同切分得到的词信息作为特征抽取出来,作为实体页面的特征表示;然后,对实体页面利用最大熵模型采用多种切分粒度进行分类,得到对实体类别的初步预测;再对所得到的实体类别进行后处理,以验证其分类结果是否可靠;后处理具体包括对利用不同切分粒度的特征训练的分类器的分类结果进行融合;利用类别属性数据库库中的类别关联属性信息修正明显的预测错误;对文本描述首句进行深度理解,利用语法分析等方法分析句子结构,获取实体类别信息,以修正之前的预测结果;优选地,还可利用困惑矩阵识别难以正确分类的类别,针对难以正确分类的类别的预测进行进一步验证,包括使用实体页面所链接的相邻页面的类别对实体类别进行修正和使用实体页面的词缀信息对实体类别进行修正。本专利技术提供的技术方案是:一种面向链接数据的实体分类方法,所述链接数据为多个实体页面,所述实体页面包含文本描述和信息框;所述实体分类方法包括预处理阶段、统计分类阶段和后处理阶段,具体包括如下步骤:1)在预处理阶段过程,通过对实体页面中的文本描述信息进行分词,切分得到词信息;由信息框的属性名和所述词信息构成实体页面的特征;2)在统计分类阶段,利用所述实体页面的特征,采用多种切分粒度来训练统计分类模型对实体页面进行分类,得到实体类别的初步预测结果;3)在后处理阶段,对实体类别的初步预测结果进行修正,得到修正后的实体分类类别;所述修正包括如下步骤:31)通过多粒度模型融合方法,将采用不同切分粒度训练的统计分类模型得到的实体类别的初步预测结果进行融合,得到融合后的实体类别结果;32)构建类别属性数据库,利用类别属性数据库库中的类别关联属性信息,对融合后的实体类别进行修正,得到类别关联属性修正后的实体类别;33)利用语法分析方法分析句子结构,通过对文本描述首句进行深度理解步骤32)所得到的类别关联属性修正后的实体类别,获取首句深度理解修正后的实体类别信息。针对上述面向链接数据的实体分类方法,进一步地,步骤1)所述分词方法包括前后最大匹配方法、后向最大匹配方法和基于统计序列标注方法。针对上述面向链接数据的实体分类方法,进一步地,步骤2)采用两种切分粒度,分别为带有命名实体识别的切分粒度和不带有命名实体识别的切分粒度。针对上述面向链接数据的实体分类方法,进一步地,所述统计分类模型为最大熵模型;步骤31)所述多粒度模型融合方法具体通过式1计算得到融合不同切分粒度分类器预测的概率分布,将多个切分粒度训练的最大熵分类模型对实体页面进行分类得到实体类别结果进行融合:Pmulti(y|x)=λPw(y|x)+(1-λ)Pn(y|x) (式1)式1中,Pmulti(y|x)为融合不同切分粒度分类器预测的概率分布;Pw(y|x)为只用词切分作为特征最大熵分类模型对于样本x预测的概率分布;y为样本类别,x为样本;Pn(y|x)为在词切分基础上加入命名实体标注作为特征的最大熵预测的概率分布;λ是调整线性插值权重的参数。针对上述面向链接数据的实体分类方法,进一步地,步骤33)所述利用语法分析方法分析句子结构,获取首句深度理解修正后的实体类别信息,具体包括如下步骤:331)对实体描述的首句进行依存句法分析,识别首句的宾语是否属于判断句宾语;332)在大规模未标注语料上训练汉语词向量,定义词汇语义相似度,计算词向量与判断句宾语的词汇语义相似度,得到词汇语义相似度最高的词向量;333)采用余弦相似度计算方法,设定余弦相似度阈值,当判断句宾语与其最相似类别的词向量的余弦相似度大于余弦相似度阈值,将该实体的类别修正为最相似类别。针对上述面向链接数据的实体分类方法,进一步地,在所述后处理阶段对实体类别的初步预测结果进行修正,得到修正后的实体分类类别之后,使用困惑矩阵识别出困难实体类别;针对识别出的困难实体类别,通过链接分析方法和词缀分析方法对实体类别结果进行验证;所述困惑矩阵识别方法具体是:在验证集上,当统计分类模型对于某一实体类别yi的预测精度未达到90%时,类别yi被视为困难实体类别。进一步地,所述链接分析方法具体是:设定分类器对实体页面e所做出的类别预测为y’,将实体页面e所链接的实体页面的集合记为N(e),找出N(e)中有类别标注的页面,统计得到N(e)中有类别标注的页面最多的类别,记作y*;当类别y*与类别预测y’不一致时,利用y*来修正y’的结果,得到实体页面e的类别为y*。针对上述面向链接数据的实体分类方法,进一步地,所述词缀分析方法具体是:针对实体名称以固定汉字结尾的实体类别,利用大规模无标注数据学习得到的实体类型相关联的词缀信息,通过分别对最相近词汇的词缀进行频次统计,得到困难实体类别相关联的词缀,通过分析词缀获得所述实体的类别。本专利技术还提供利用上述面向链接数据的实体分类方法实现的面向链接数据的实体分类系统,包括预处理模块、统计分类模块和后处理模块;所述预本文档来自技高网...
【技术保护点】
一种面向链接数据的实体分类方法,所述链接数据为多个实体页面,所述实体页面包含文本描述和信息框;所述实体分类方法包括预处理阶段、统计分类阶段和后处理阶段,具体包括如下步骤:1)在预处理阶段过程,通过对实体页面中的文本描述信息进行分词,切分得到词信息;由信息框的属性名和所述词信息构成实体页面的特征;2)在统计分类阶段,利用所述实体页面的特征,采用多种切分粒度来训练统计分类模型对实体页面进行分类,得到实体类别的初步预测结果;3)在后处理阶段,对实体类别的初步预测结果进行修正,得到修正后的实体分类类别;所述修正包括如下步骤:31)通过多粒度模型融合方法,将采用多个切分粒度训练的统计分类模型得到的实体类别的初步预测结果进行融合,得到融合后的实体类别结果;32)构建类别属性数据库,利用类别属性数据库库中的类别关联属性信息,对融合后的实体类别进行修正,得到类别关联属性修正后的实体类别;33)利用语法分析方法分析句子结构,通过对文本描述首句进行深度理解步骤32)所得到的类别关联属性修正后的实体类别,获取首句深度理解修正后的实体类别信息。
【技术特征摘要】
1.一种面向链接数据的实体分类方法,所述链接数据为多个实体页面,所述实体页面包含文本描述和信息框;所述实体分类方法包括预处理阶段、统计分类阶段和后处理阶段,具体包括如下步骤:1)在预处理阶段过程,通过对实体页面中的文本描述信息进行分词,切分得到词信息;由信息框的属性名和所述词信息构成实体页面的特征;2)在统计分类阶段,利用所述实体页面的特征,采用多种切分粒度来训练统计分类模型对实体页面进行分类,得到实体类别的初步预测结果;3)在后处理阶段,对实体类别的初步预测结果进行修正,得到修正后的实体分类类别;所述修正包括如下步骤:31)通过多粒度模型融合方法,将采用多个切分粒度训练的统计分类模型得到的实体类别的初步预测结果进行融合,得到融合后的实体类别结果;32)构建类别属性数据库,利用类别属性数据库库中的类别关联属性信息,对融合后的实体类别进行修正,得到类别关联属性修正后的实体类别;33)利用语法分析方法分析句子结构,通过对文本描述首句进行深度理解步骤32)所得到的类别关联属性修正后的实体类别,获取首句深度理解修正后的实体类别信息。2.如权利要求1所述面向链接数据的实体分类方法,其特征是,步骤1)所述分词方法包括前后最大匹配方法、后向最大匹配方法和基于统计序列标注方法。3.如权利要求1所述面向链接数据的实体分类方法,其特征是,步骤2)采用两种切分粒度,分别为带有命名实体识别的切分粒度和不带有命名实体识别的切分粒度。4.如权利要求1所述面向链接数据的实体分类方法,其特征是,所述统计分类模型为最大熵模型;步骤31)所述多粒度模型融合方法具体通过式1计算得到融合不同切分粒度分类器预测的概率分布,将多个切分粒度训练的最大熵分类模型对实体页面进行分类得到实体类别结果进行融合:Pmulti(y|x)=λPw(y|x)+(1-λ)Pn(y|x) (式1)式1中,Pmulti(y|x)为融合不同切分粒度分类器预测的概率分布;Pw(y|x)为只用词切分作为特征最大熵分类模型对于样本x预测的概率分布;y为样本类别,x为样本;Pn(y|x)为在词切分基础上加入命名实体标注作为特征的最大熵预测的概率分布;λ是调整线性插值权重的参数。5.如权利要求1所述面向链接数据的实体分类方法,其特征是,步骤33)所述利用语法分析方法分析句子结构,获取首句深度理解修正后的实体类别信息,具体包括如下步骤:331)对实体描...
【专利技术属性】
技术研发人员:葛涛,穗志方,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。