一种领域本体的构建方法和装置制造方法及图纸

技术编号:13388153 阅读:87 留言:0更新日期:2016-07-22 05:06
本发明专利技术公开了一种本体领域的构建方法和装置,用以挖掘出专业且精确的领域概念集合,以准确将实例归属到正确的概念之下,提高领域本体构建的准确性。领域本体构建方法包括:提取文档集合包含的每一文档的特征信息;根据提取的特征信息,利用聚类算法对文档集合包含的文档进行聚类得到K1个簇;从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;分别从正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;利用其将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合;第二类文档集合包含的文档进入下次迭代。

【技术实现步骤摘要】
一种领域本体的构建方法和装置
本专利技术涉及数据挖掘
,尤其涉及一种领域本体的构建方法和装置。
技术介绍
“语义网”是计算机和互联网在描述下一阶段网络发展时所使用的术语。所谓“语义”就是文本的含义。语义网能够根据语义进行判断的网络,也就是一种能理解人类语言,可以使人与电脑之间的交流变得像人与人之间交流一样轻松的智能网络。通过“语义网”,可以构建一个基于网页内数据语义来进行连接的网络,从而使网络能按照用户的要求自动搜寻和检索网页,直至找到所需要的内容。如何提取Web信息,将其构建成带有语义的、机器能够理解的形式,是目前语义网研究的重点。本体作为一种能在语义和知识层面上描述概念的建模工具,是将Web信息语义表示的核心和关键所在。本体在知识工程、自然语言处理、问答系统、信息检索、智能信息集成等相关领域中发挥着重要作用。本体具有概念化的特性,它是世界中某些现象的抽象描述。概念挖掘是指从相关领域文档中,通过人工定义或机器学习的方式获取领域概念的过程。抽象出的概念用来描述本体中实例的分类,并建立概念之间的关系。本体概念及其层次关系的生成在本体构建过程中至关重要。领域本体是专业性的本体,描述特定领域中概念与概念之间的关系,提供对该领域知识的权威理解。领域本体的构建和应用是本体研究中的关注重点。领域本体往往通过手工方式构建,概念的获取以及概念关系建立都缺乏自动化手段,对快速构建本体模型造成一定障碍。本体概念的识别方法主要分为基于规则的方法、基于统计的方法以及规则和统计结合的方法。基于规则的方法通过人为对概念的识别,抽象出规则或模板,查找出文本中匹配规则或符合模板的概念。这种方法一般也依赖于自然语言处理工具,通过分词结果、词性等文本特性构造规则。这种方法受不同语言、不同领域的影响,对新的环境要构造新的规则,工作较为繁琐,缺乏通用性。基于统计的方法利用机器学习技术,寻找语料中的特征,对语料进行标注和训练,获得概念抽取模型。通常采用的方法有HMM(HiddenMarkovModel,隐马尔可夫模型),决策树等,该方法不受语言与领域的影响。规则与统计相结合的方法是采用语言学和数学统计方法共同来获取概念。其中,规则方法侧重于获取待选概念,而统计方法则用于提高概念获取的准确性和效率。目前大多数的本体学习系统一般都采用这种结合方法来获取本体概念。对于一些行业来说,例如,移动客服业务中包含了大量的有待分析和处理文本数据,其中包括:业务知识库、业务规范、套餐信息、客服问答等数据。这些数据的组织结构各不相同,有结构化的业务手册,半结构化的业务规范和流程、套餐信息,以及非构化的QA对组、对话流等。由于这些数据组织结构的分散性和多样性,移动客服人员在工作中常常需要反复查找,这会给客服人员准确迅速获取需要的业务知识形成障碍。构建移动业务本体知识库可以对这些结构化、半结构化和非结构化数据进行统一建模,实现对各类业务数据全面化、层次化和智能化的管理。然而对于领域本体的构建,由于其概念集合具有明显的领域限制,对概念的确定要求具备准确性与说服力。因此,对概念识别过程需要专家的监督与辅助,以确保结果的专业性与可信度。这就使得领域本体构建过程需要大量专业人士辅助完成,人工成本很高。因此,针对领域本体的构建,现有的概念挖掘方法存在如下问题:一方面,基于规则的方法对不同的领域要设计不同的规则,无法泛化;另一方面,基于统计的方法需要在标注训练前人工预先规定概念集合,需要观察所有文档,否则会出现候选概念词集的缺失,实例的归类也会受到影响,不能保证精度。且上述两种方法均依赖于前期人工工作结果的准确性与覆盖率,影响了概念挖掘结果的准确性,进而影响领域本体构建的准确性。
技术实现思路
本专利技术实施例提供一种本体领域的构建方法和装置,用以挖掘出专业且精确的领域概念集合,以准确将实例归属到正确的概念之下,提高领域本体构建的准确性。本专利技术实施例提供一种领域本体构建方法,包括:提取文档集合包含的每一文档的特征信息;根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合;对于所述第二类文档集合包含的文档,根据各文档对应的特征信息,利用聚类算法对所述第二文档集合包含的文档进行聚类得到K2个簇,并执行从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇的步骤,直至所述第二文档集合中的文档数量低于预设值,其中K2为正整数。本专利技术实施例提供一种领域本体构建装置,包括:第一提取单元,用于提取文档集合包含的每一文档的特征信息;聚类单元,用于根据所述第一提取单元提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;以及对于文档划分单元划分出的第二文档集合包含的文档,根据所述第一提取单元提取的提取的特征信息,对所述第二文档集合包含的文档进行聚类得到K1个簇;第二提取单元,用于从所述聚类单元得到的簇中提取至少一个领域概念;簇划分单元,用于针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;第一确定单元,用于分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;文档划分单元,用于利用所述确定单元确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合;以及在所述第二文档集合包含的文档数量不低于预设值时,触发所述聚类单元执行针对所述第二文档集合包含的文档,根据所述第一提取单元提取的提取的特征信息,利用聚类算法对所述第二文档集合包含的文档进行聚类得到K2个簇的操作,其中K2为正整数。本专利技术实施例提供的领域本体的构建方法和装置,在对领域本体构建的过程中,在所有概念未知的前提下,通过聚类算法的辅助,在迭代过程中抽象出概念,并基于每次迭代抽象出的概念,将各文档归属到正确的概念之下,避免了通过人工操作过程中,由于需要提前预定概念集合导致概念缺失造成的文档分类错误的情况,提高了领域本体构建的准确性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例中,领域本体构建方法的实施流程示意图;图2为本专利技术实施例中,对文档进行聚类的流程示意图;图3为本专利技术实施例中,确定聚类簇数K1的流程示意图;图4为本专利技术实施例中,确定初始聚类中心点的流程示意图;图5为本专利技术实施例中,确定dc的流程示意图;图6为本专利技术实施例中,确定文档分类器的流程示意图;图7为本专利技术实施例中,领域本本文档来自技高网
...

【技术保护点】
一种领域本体构建方法,其特征在于,包括:提取文档集合包含的每一文档的特征信息;根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合;对于所述第二类文档集合包含的文档,根据各文档对应的特征信息,利用聚类算法对所述第二文档集合包含的文档进行聚类得到K2个簇,并执行从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇的步骤,直至所述第二文档集合中的文档数量低于预设值,其中K2为正整数。

【技术特征摘要】
1.一种领域本体构建方法,其特征在于,包括:提取文档集合包含的每一文档的特征信息;根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合,判断所述第二类文档集合中包含的文档数量是否低于预设值;如果所述第二类文档集合包含的文档数量不低于预设值时,根据各文档对应的特征信息,利用聚类算法对所述第二类文档集合包含的文档进行聚类得到K2个簇,并返回执行从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇,分别从正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器,利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合的步骤,直至所述第二类文档集合中的文档数量低于预设值,其中K2为正整数。2.如权利要求1所述的方法,其特征在于,根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,具体包括:从所述文档集合中选择K1个文档作为初始聚类中心点;将所述文档集合包含的每一文档与其距离最近的初始聚类中心点划分为同一簇;对于得到的每一个簇,确定该簇的中心点作为新的聚类中心点;并根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K1个簇;针对得到的每一个簇重复执行确定该簇的中心点作为新的聚类中心点,并根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K1个簇的步骤,直至得到的每一个簇包含的文档不再变化。3.如权利要求1所述的方法,其特征在于,按照以下方法确定K1:分别利用预先设定的K1的取值范围内包含的每一数值对所述文档集合包含的文档进行聚类;针对所述取值范围内的每一数值,确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数;确定与最大轮廓系数对应的数值为K1。4.如权利要求3所述的方法,其特征在于,针对所述取值范围内的每一数值,确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数,具体包括:针对所述取值范围内的每一数值,针对利用该数值对所述文档集合包含的文档进行聚类得到的每一个簇所包含的每一文档,按照以下公式确定该文档的轮廓系数:其中:i和j为文档标识;Si为该文档的轮廓系数;ai为该文档与其所属簇中其他文档之间的平均距离;bi为该文档与其他簇的平均距离的最小值;确定所述文档集合所包含文档的轮廓系数平均值为利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数。5.如权利要求2所述的方法,其特征在于,从所述文档集合中选择K1个文档作为初始聚类中心点,具体包括:对于所述文档集合包含的每一文档,确定该文档的局部密度;针对每一文档,确定该文档与局部密度大于该文档的文档之间的最小距离;分别以所述文档集合中包含的每一文档对应的局部密度及其与局部密度大于自身的文档之间的最小距离为坐标描绘二维图;根据与坐标轴组成矩形的面积由大到小的顺序,选择前K1个文档作为初始聚类中心。6.如权利要求5所述的方法,其特征在于,对于所述文档集合包含的每一文档,确定该文档的局部密度,具体包括:按照以下公式确定所述文档集合包含的每一文档的局部密度:若dij≥dc,χ(dij-dc)=1,若dij<dc,χ(dij-dc)=0,其中:i和j为文档标识;ρi为文档i的局部密度;dij为文档i和文档j之间的距离;dc为预设的距离阈值。7.如权利要求6所述的方法,其特征在于,按照以下方法确定dc:针对所述文档集合包含的每一文档,按照该文档与其它文档之间的距离由小到大的顺序选择预设比例的距离作为该文档对应的距离阈值;将所述文档集合包含的每一文档对应的距离阈值由小到大排序;根据排序后的距离阈值,确定第一个四分位数为dc。8.如权利要求5所述的方法,其特征在于,在根据与坐标轴组成矩形的面积由大到小的顺序,选择前K个文档作为初始聚类中心之前,还包括:针对所述文档集合包含的每一文档,确定该文档对应的局部密度与该文档与局部密度大于该文档的文档之间的最小距离的比值;根据每一文档对应的比值,从所述二维图中选择对应比值位于比值最大值与比值最小值之间的文档所对应的局部密度和该文档与局部密度大于该文档的文档之间的最小距离保留。9.如权利要求8所述的方法,其特征在于,根据每一文档对应的比值,从所述二维图中选择对应比值位于比值最大值与比值最小值之间的文档所对应的局部密度和该文档与局部密度大于该文档的文档之间的最小距离保留,具体包括:按照对应的比值对所述文档集合包含的每一文档进行排序;将排序后的文档集合平均划分为N个子集合,N为大于2的正整数;选择除第一个子集合和最后一个子集合以外的子集合所包含的文档;删除所述二维图中除选择出的文档以外的文档对应的所对应的局部密度和该文档与局部密度大于该文档的文档之间的最小距离。10.如权利要求1~9任一权利要求所述的方法,其特征在于,对于所述文档集合包含的任意两个文档,按照以下方法确定该两个文档之间的距离:确定该两个文档之间相同特征信息的数量;将该两个之间相同特征信息的数量的倒数作为该两个文档之间的距离。11.如权利要求1所述的方法,其特征在于,分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器,具体包括:将选择出的文档按照预设比例划分为训练文档集合和测试文档集合;利用所述训练文档集合中的文档进行支持向量机SVM分类器训练得到SVM分类器;利用所述测试文档集合中的文档对得到的SVM分类器进行测试;如果测试结果满足预设阈值,确定得到的SVM分类器为所述文档分类器;如果测试结果不满足预设阈值,则返回执行根据提取的特征信息,利用聚类算法对文档进行聚类得到至少一个簇...

【专利技术属性】
技术研发人员:黄毅周文辉冯俊兰李明洋张鹏
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1