一种面向链接数据的实体分类方法和系统技术方案

技术编号：13633172 阅读：75 留言：0更新日期：2016-09-02 15:46

本发明专利技术公布了一种面向链接数据的实体分类方法和系统，针对链接数据的实体分类问题，包括预处理、统计分类和后处理过程；其中，预处理通过对实体页面中的文本描述信息进行分词；由信息框的属性名和分词得到的词信息构成实体页面特征；统计分类过程采用多种切分粒度来训练统计分类模型对实体页面进行分类，得到实体类别的初步预测结果；后处理过程对实体统计分类结果进行修正，包括模型融合、语言知识、链接信息以及利用类别关联属性信息对融合后的实体类别进行修正等方法。本发明专利技术技术方案易实现、易调试、效率高、精度好，适合用来链接数据进行知识管理；能够实现对实体进行高精准分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理领域，涉及链接数据分类和搜索，尤其涉及一种面向链接数据中的实体页面进行高精准分类的方法和系统。
技术介绍
目前处在大数据时代，如何最大限度地利用数据来帮助计算机进行信息处理已经成为了当前信息处理领域最热门的研究课题。近年来，随着Web2.0时代的到来，链接数据(例如语义网、知识图谱等)因为其强大的关系描述能力，得到了人们的广泛关注。链接数据是指象百度百科、维基百科的数据组织形式，这种数据中，每个页面对应一个实体，实体间有相互的链接，因此被称为链接数据(linked data)。随着数据规模的不断增大，采用人工方法管理链接数据已经不现实，迫切需要能够对链接数据进行知识管理的高效方法和系统。链接数据的实体分类是链接数据知识管理领域的一个重要技术问题，针对链接数据进行实体分类，能够有效地组织链接数据中大量的实体页面，从而加强用户搜索和阅读的体验。目前，实体分类的常用方法是针对实体的描述文本进行分类。但是，这种简单的方法在很多情况下并不能够准确地分析出实体的类别，其不足主要表现在：(一)对于人来说，尽管根据文本描述来判断实体类别是一件很容易的事情，但是对于目前基于特征的统计分类方法而言，想要高精准地通过文本描述判断实体类别并不现实；例如，文本“X是根据著名游戏改编的动画”与“A是根据著名动画制作的游戏”在词汇级别有着非常相似的表示，但是前者是对一个动画实体的描述而后者是对游戏实体的描述，其描述的实体类型完全不同。因此，单纯基于文本特征的统计分类方法识别精度不足，并不能精准地获得实体类别。(二)很多实体页面并没有足够的文本描述信息，这种情况下...

【技术保护点】
一种面向链接数据的实体分类方法，所述链接数据为多个实体页面，所述实体页面包含文本描述和信息框；所述实体分类方法包括预处理阶段、统计分类阶段和后处理阶段，具体包括如下步骤：1)在预处理阶段过程，通过对实体页面中的文本描述信息进行分词，切分得到词信息；由信息框的属性名和所述词信息构成实体页面的特征；2)在统计分类阶段，利用所述实体页面的特征，采用多种切分粒度来训练统计分类模型对实体页面进行分类，得到实体类别的初步预测结果；3)在后处理阶段，对实体类别的初步预测结果进行修正，得到修正后的实体分类类别；所述修正包括如下步骤：31)通过多粒度模型融合方法，将采用多个切分粒度训练的统计分类模型得到的实体类别的初步预测结果进行融合，得到融合后的实体类别结果；32)构建类别属性数据库，利用类别属性数据库库中的类别关联属性信息，对融合后的实体类别进行修正，得到类别关联属性修正后的实体类别；33)利用语法分析方法分析句子结构，通过对文本描述首句进行深度理解步骤32)所得到的类别关联属性修正后的实体类别，获取首句深度理解修正后的实体类别信息。

【技术特征摘要】
1.一种面向链接数据的实体分类方法，所述链接数据为多个实体页面，所述实体页面包含文本描述和信息框；所述实体分类方法包括预处理阶段、统计分类阶段和后处理阶段，具体包括如下步骤：1)在预处理阶段过程，通过对实体页面中的文本描述信息进行分词，切分得到词信息；由信息框的属性名和所述词信息构成实体页面的特征；2)在统计分类阶段，利用所述实体页面的特征，采用多种切分粒度来训练统计分类模型对实体页面进行分类，得到实体类别的初步预测结果；3)在后处理阶段，对实体类别的初步预测结果进行修正，得到修正后的实体分类类别；所述修正包括如下步骤：31)通过多粒度模型融合方法，将采用多个切分粒度训练的统计分类模型得到的实体类别的初步预测结果进行融合，得到融合后的实体类别结果；32)构建类别属性数据库，利用类别属性数据库库中的类别关联属性信息，对融合后的实体类别进行修正，得到类别关联属性修正后的实体类别；33)利用语法分析方法分析句子结构，通过对文本描述首句进行深度理解步骤32)所得到的类别关联属性修正后的实体类别，获取首句深度理解修正后的实体类别信息。2.如权利要求1所述面向链接数据的实体分类方法，其特征是，步骤1)所述分词方法包括前后最大匹配方法、后向最大匹配方法和基于统计序列标注方法。3.如权利要求1所述面向链接数据的实体分类方法，其特征是，步骤2)采用两种切分粒度，分别为带有命名实体识别的切分粒度和不带有命名实体识别的切分粒度。4.如权利要求1所述面向链接数据的实体分类方法，其特征是，所述统计分类模型为最大熵模型；步骤31)所述多粒度模型融合方法具体通过式1计算得到融合不同切分粒度分类器预测的概率分布，将多个切分粒度训练的最大熵分类模型对实体页面进行分类得到实体类别结果进行融合：Pmulti(y|x)＝λPw(y|x)+(1-λ)Pn(y|x) (式1)式1中，Pmulti(y|x)为融合不同切分粒度分类器预测的概率分布；Pw(y|x)为只用词切分作为特征最大熵分类模型对于样本x预测的概率分布；y为样本类别，x为样本；Pn(y|x)为在词切分基础上加入命名实体标注作为特征的最大熵预测的概率分布；λ是调整线性插值权重的参数。5.如权利要求1所述面向链接数据的实体分类方法，其特征是，步骤33)所述利用语法分析方法分析句子结构，获取首句深度理解修正后的实体类别信息，具体包括如下步骤：331)对实体描...

【专利技术属性】
技术研发人员：葛涛，穗志方，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人