【技术实现步骤摘要】
一种领域本体的构建方法和装置
本专利技术涉及数据挖掘
,尤其涉及一种领域本体的构建方法和装置。
技术介绍
“语义网”是计算机和互联网在描述下一阶段网络发展时所使用的术语。所谓“语义”就是文本的含义。语义网能够根据语义进行判断的网络,也就是一种能理解人类语言,可以使人与电脑之间的交流变得像人与人之间交流一样轻松的智能网络。通过“语义网”,可以构建一个基于网页内数据语义来进行连接的网络,从而使网络能按照用户的要求自动搜寻和检索网页,直至找到所需要的内容。如何提取Web信息,将其构建成带有语义的、机器能够理解的形式,是目前语义网研究的重点。本体作为一种能在语义和知识层面上描述概念的建模工具,是将Web信息语义表示的核心和关键所在。本体在知识工程、自然语言处理、问答系统、信息检索、智能信息集成等相关领域中发挥着重要作用。本体具有概念化的特性,它是世界中某些现象的抽象描述。概念挖掘是指从相关领域文档中,通过人工定义或机器学习的方式获取领域概念的过程。抽象出的概念用来描述本体中实例的分类,并建立概念之间的关系。本体概念及其层次关系的生成在本体构建过程中至关重要。领域本体是专业性的本体,描述特定领域中概念与概念之间的关系,提供对该领域知识的权威理解。领域本体的构建和应用是本体研究中的关注重点。领域本体往往通过手工方式构建,概念的获取以及概念关系建立都缺乏自动化手段,对快速构建本体模型造成一定障碍。本体概念的识别方法主要分为基于规则的方法、基于统计的方法以及规则和统计结合的方法。基于规则的方法通过人为对概念的识别,抽象出规则或模板,查找出文本中匹配规则或符合模板的概 ...
【技术保护点】
一种领域本体构建方法,其特征在于,包括:提取文档集合包含的每一文档的特征信息;根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合;对于所述第二类文档集合包含的文档,根据各文档对应的特征信息,利用聚类算法对所述第二文档集合包含的文档进行聚类得到K2个簇,并执行从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇的步骤,直至所述第二文档集合中的文档数量低于预设值,其中K2为正整数。
【技术特征摘要】
1.一种领域本体构建方法,其特征在于,包括:提取文档集合包含的每一文档的特征信息;根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合,判断所述第二类文档集合中包含的文档数量是否低于预设值;如果所述第二类文档集合包含的文档数量不低于预设值时,根据各文档对应的特征信息,利用聚类算法对所述第二类文档集合包含的文档进行聚类得到K2个簇,并返回执行从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇,分别从正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器,利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合的步骤,直至所述第二类文档集合中的文档数量低于预设值,其中K2为正整数。2.如权利要求1所述的方法,其特征在于,根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,具体包括:从所述文档集合中选择K1个文档作为初始聚类中心点;将所述文档集合包含的每一文档与其距离最近的初始聚类中心点划分为同一簇;对于得到的每一个簇,确定该簇的中心点作为新的聚类中心点;并根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K1个簇;针对得到的每一个簇重复执行确定该簇的中心点作为新的聚类中心点,并根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K1个簇的步骤,直至得到的每一个簇包含的文档不再变化。3.如权利要求1所述的方法,其特征在于,按照以下方法确定K1:分别利用预先设定的K1的取值范围内包含的每一数值对所述文档集合包含的文档进行聚类;针对所述取值范围内的每一数值,确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数;确定与最大轮廓系数对应的数值为K1。4.如权利要求3所述的方法,其特征在于,针对所述取值范围内的每一数值,确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数,具体包括:针对所述取值范围内的每一数值,针对利用该数值对所述文档集合包含的文档进行聚类得到的每一个簇所包含的每一文档,按照以下公式确定该文档的轮廓系数:其中:i和j为文档标识;Si为该文档的轮廓系数;ai为该文档与其所属簇中其他文档之间的平均距离;bi为该文档与其他簇的平均距离的最小值;确定所述文档集合所包含文档的轮廓系数平均值为利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数。5.如权利要求2所述的方法,其特征在于,从所述文档集合中选择K1个文档作为初始聚类中心点,具体包括:对于所述文档集合包含的每一文档,确定该文档的局部密度;针对每一文档,确定该文档与局部密度大于该文档的文档之间的最小距离;分别以所述文档集合中包含的每一文档对应的局部密度及其与局部密度大于自身的文档之间的最小距离为坐标描绘二维图;根据与坐标轴组成矩形的面积由大到小的顺序,选择前K1个文档作为初始聚类中心。6.如权利要求5所述的方法,其特征在于,对于所述文档集合包含的每一文档,确定该文档的局部密度,具体包括:按照以下公式确定所述文档集合包含的每一文档的局部密度:若dij≥dc,χ(dij-dc)=1,若dij<dc,χ(dij-dc)=0,其中:i和j为文档标识;ρi为文档i的局部密度;dij为文档i和文档j之间的距离;dc为预设的距离阈值。7.如权利要求6所述的方法,其特征在于,按照以下方法确定dc:针对所述文档集合包含的每一文档,按照该文档与其它文档之间的距离由小到大的顺序选择预设比例的距离作为该文档对应的距离阈值;将所述文档集合包含的每一文档对应的距离阈值由小到大排序;根据排序后的距离阈值,确定第一个四分位数为dc。8.如权利要求5所述的方法,其特征在于,在根据与坐标轴组成矩形的面积由大到小的顺序,选择前K个文档作为初始聚类中心之前,还包括:针对所述文档集合包含的每一文档,确定该文档对应的局部密度与该文档与局部密度大于该文档的文档之间的最小距离的比值;根据每一文档对应的比值,从所述二维图中选择对应比值位于比值最大值与比值最小值之间的文档所对应的局部密度和该文档与局部密度大于该文档的文档之间的最小距离保留。9.如权利要求8所述的方法,其特征在于,根据每一文档对应的比值,从所述二维图中选择对应比值位于比值最大值与比值最小值之间的文档所对应的局部密度和该文档与局部密度大于该文档的文档之间的最小距离保留,具体包括:按照对应的比值对所述文档集合包含的每一文档进行排序;将排序后的文档集合平均划分为N个子集合,N为大于2的正整数;选择除第一个子集合和最后一个子集合以外的子集合所包含的文档;删除所述二维图中除选择出的文档以外的文档对应的所对应的局部密度和该文档与局部密度大于该文档的文档之间的最小距离。10.如权利要求1~9任一权利要求所述的方法,其特征在于,对于所述文档集合包含的任意两个文档,按照以下方法确定该两个文档之间的距离:确定该两个文档之间相同特征信息的数量;将该两个之间相同特征信息的数量的倒数作为该两个文档之间的距离。11.如权利要求1所述的方法,其特征在于,分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器,具体包括:将选择出的文档按照预设比例划分为训练文档集合和测试文档集合;利用所述训练文档集合中的文档进行支持向量机SVM分类器训练得到SVM分类器;利用所述测试文档集合中的文档对得到的SVM分类器进行测试;如果测试结果满足预设阈值,确定得到的SVM分类器为所述文档分类器;如果测试结果不满足预设阈值,则返回执行根据提取的特征信息,利用聚类算法对文档进行聚类得到至少一个簇...
【专利技术属性】
技术研发人员:黄毅,周文辉,冯俊兰,李明洋,张鹏,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。