当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于领域本体的语义索引方法技术

技术编号:2917301 阅读:260 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于领域本体的语义索引方法,包括步骤如下:(1)利用奇异值分解对单词-文档矩阵进行分解处理得到概念词-文档矩阵;(2)首先建立该领域的基本本体知识库,利用该本体知识库构建一个基于领域本体的动态语义模板库;(3)语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引。本发明专利技术的有益效果:能很好的解决关键字索引的难于解决识别同义词的缺点,能够获得语义相同或关联的信息;本体的相关陈述的二级索引,能够精化搜索粒度,为搜索结果提供更高的准确度和效率,向用户提供更高级的搜索功能。

【技术实现步骤摘要】

本专利技术涉及语义搜索,语义网络领域,特别是涉及一种基于领域本体的语义索引方法
技术介绍
随着网络信息的膨胀和网络用户的增长,人们对信息的利用方式和迫切需求,正逐渐在发生改变,从以前的人工搜索,到现在的Google,Baidu等搜索引擎的使用。但是由于关键字搜索仍然存在着很多缺点,对搜索的准确度和性能难于满足高级用户的需求,基于此我们提出了基于语义的索引技术。可以看出,传统的基于关键词匹配的搜索引擎普遍存在以下几个问题。(1)高查全率与低准确性并存。尽管内容高度相关的网页已包含在检索结果中,但有价值的信息被掺杂在数以万计的其他相关度低,甚至不相关的文档中,无法起到其应有的作用;(2)查询结果对关键词的高度敏感。通常用户最先选择的关键词并不能产生期望的查询结果。这是由于某些网页中使用了与我们所选用的关键词不相同的术语,如同义词,近义词等。但用户所希望的是:语义相同的查询能够返回相同的结果;(3)查询的结果之间缺乏语义关联。如果用户需要的信息分散在许多不同的网络文档中,用户必须构造多个查询来获取所需要的文档,然后手工提取和融合文档里的部分信息,增加了用户相应操作和处理的负担。产生这些问题的主要原因是目前互联网上的大部分内容还只适合人来进行阅读和处理,现代计算机在语句理解和信息自动抽取方面的能力还十分有限,本专利技术就是利用语义索引的语义相关性的特点,对文档建立语义索引,消除关键词搜索所存在的这些问题。
技术实现思路
本专利技术的目的在于克服上述技术的缺陷,而提供一种基于领域本体的语义索引方法。本专利技术的目的是通过以下技术方案来实现的。这种基于领域本体的语义索引方法,包括以下步骤:(1)利用奇异值分解对单词-文档矩阵进行分解处理。将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,这样一方面能得到最能描述该文档的概念词信息,若以这些概念词建立索引,能够更准确地表述文档信息,提高查询的准确程度;另一方面也能得到文档之间的语义关联信息,从而能够克服单纯的关键-->字搜索带来的漏查包含同义词的语义相关的文档;(2)基于本体的动态语义模版。首先由领域专家建立该领域的基本本体知识库(该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,如在中医药领域,包含了药物和疾病本体,及药物和疾病的不同表述及层次关系,但缺少药物和疾病的关系),利用该本体知识库构建一个基于领域本体的动态语义模板库。其中的动态语义模板库的含义在于基本本体知识库的基础之上,我们通过不断地处理该领域的文档,能够识别新的本体及陈述,不断丰富本体知识库,得到更完整的语义模板,提高对文档概念词匹配的命中率,提高建立索引的质量和性能。(3)基于本体及其相关陈述的二级索引。与传统的搜索引擎中的基于关键字的索引不同,语义索引是基于本体及其相关陈述进行的二级索引。该二级索引的特点在于利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构,这样对陈述的检索只需要常数的时间,对搜索响应时间影响很小,但是却提供了更高级的查询功能,提供了更准确的搜索方法。本专利技术中步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理,得到新的概念词-文档矩阵,添加了文档之间的语义关联,同时也去除了与文档语义相关小的概念词,减少文档的概念词空间,提高了建立索引的性能。奇异值分解的计算公式如下:Mt×d=Kt×r*Sr×r*Dr×dT其中:Mt×d矩阵为步骤(1)中分词之后得到单词-文档矩阵。Kt×r矩阵通过求Mt×d·Mt×dT的特征向量得到。Sr×r矩阵为一个r×r的以降序存储奇异值的对角矩阵。Dr×dT矩阵通过求Mt×dT·Mt×d的特征向量得到。利用奇异值分解,可以将单词-文档矩阵Mt×d分解为较小的三个矩阵,Kt×r,Sr×r,Dr×dT,这三个矩阵都有比较清晰的物理意义,Kt×r矩阵的每一行表示意思相关的的一类词,即其中的每个非零元素表示这类词中每个词的重要性(或者说相关性);Dr×dT矩阵的每一个列表示相关的一类文档,其中的每个非零元素表示该文档的重要性(或者说相关性);Sr×r矩阵表示概念词和文档之间的相关性。这样我们可以利用Sr×r矩阵可以得到我们需要的概念词文档矩阵,同时通过选择适当的r可以大大减少文档的概念词空间,从而剔除了大量的与文档相关性较小的概念词,提高概念词与文档语义上的内聚性,提高建立索引的性能。本专利技术中步骤(2)中的基于本体的动态语义模板对文档抽取本体及其陈述:在利用奇异值分解得到了概念词-文档矩阵后,对每一个文档中的概念词,在语义模板库中查找匹配该概-->念词,如果找到,则在该概念词出现的上下文中(一般指同一句话中),根据本体的三元组的模式,查找概念词-谓词-概念词的陈述,如果该陈述在语义模板库中不存在,则添加进入语义模板库,同时将概念词(本体)及其陈述添加到索引中,并记录本体及其陈述的信息,如出现的文档,频率,属于哪个本体等。同时如果该概念词不在语义模板库中,则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中,并将其出现次数加1,若在一定数量的文档中,其出现频率超过上限阀值,则将其从临时语义模板库中添加到动态语义模板库中,否则若其出现频率低于下限阀值,将其从临时语义模板库中删除,表示该概念词不属于该领域的本体。否则,统计信息清零,重新计数。具体算法如下:       for doc in概念词-文档矩阵中的文档                for ontology in概念词-文档矩阵中的doc文档的概念词             if(ontology is in语义模板库)             {                 添加该ontology到索引中                 While(在该ontology的上下文中)                    {                     查找概念词-谓词-概念词的陈述;                      添加该陈述到ontology的二级索引中                      If(该陈述is not in语义模板库)                          添加该陈述到语义模板库本文档来自技高网...

【技术保护点】
一种基于领域本体的语义索引方法,其特征在于:包括以下步骤: (1)、利用奇异值分解对单词-文档矩阵进行分解处理:将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,得到最能描述该文档的概念词信息和文档之间的语义关联信息; (2)、基于本体的动态语义模版:首先建立该领域的基本本体知识库,该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,利用该本体知识库构建一个基于领域本体的动态语义模板库;其中的动态语义模板库的含义在于基本本体知识库的基础之上,通过处理该领域的文档,识别新的本体及陈述,丰富本体知识库,得到更完整的语义模板; (3)、基于本体及其相关陈述的二级索引:语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构。

【技术特征摘要】
1.一种基于领域本体的语义索引方法,其特征在于:包括以下步骤:(1)、利用奇异值分解对单词-文档矩阵进行分解处理:将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,得到最能描述该文档的概念词信息和文档之间的语义关联信息;(2)、基于本体的动态语义模版:首先建立该领域的基本本体知识库,该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,利用该本体知识库构建一个基于领域本体的动态语义模板库;其中的动态语义模板库的含义在于基本本体知识库的基础之上,通过处理该领域的文档,识别新的本体及陈述,丰富本体知识库,得到更完整的语义模板;(3)、基于本体及其相关陈述的二级索引:语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构。2.根据权利要求1所述的基于领域本体的语义索引方法,其特征在于:步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理,得到新的概念词-文档矩阵;奇异值分解的计算公式如下:Mt×d=Kt×r*Sr×r*Dr×dT其中:Mt×d矩阵为步骤(1)中分词之后得到单词-文档矩阵Kt×r矩阵通过求Mt×d·Mt×dT的特征向量得到Sr×r矩阵为一个r×r的以降序存储奇异值的对角矩阵Dr×d...

【专利技术属性】
技术研发人员:吴朝晖付志宏姜晓红
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1