一种基于文本语义的概念生成模型的系统和方法技术方案

技术编号:13419559 阅读:105 留言:0更新日期:2016-07-27 18:44
本发明专利技术提出了一种基于文本语义的概念生成模型的系统和方法,属于文本知识获取领域,具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。本发明专利技术首先提取出中文语料库中的已有概念,然后去除其前部特征和后部特征得到候选概念词构件,并利用基于统计的方法和基于上下文语境的方法对候选概念词构件进行了相似度的计算,然后进行聚类,在已有概念的基础上生成新的概念,扩充构词规则库。并且通过实验,验证了该发明专利技术的有效性。

【技术实现步骤摘要】
一种基于文本语义的概念生成模型的系统和方法
本专利技术属于文本知识获取领域,具体涉及概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法及系统。
技术介绍
文本知识获取是人工智能的重要研究内容,是指用机器学习等人工智能的方法,自动将自然语言描述的文本知识变为计算机可理解的形式。随着计算机的普及以及互联网的迅猛发展,越来越多的知识出现在网页中,而大部分的知识是以文本的形式呈现的,如何快速智能的从网页文本中获取知识,是当今知识获取领域一个亟待解决的问题。人们正常理解的知识指的是掌握概念的数量多少以及概念之间的关系,同样,对于计算机而言,概念和概念间的关系是知识的基本组成部分。所以概念的数量和准确性将直接影响知识获取的效果。如何得到大量准确的概念,已成为知识工程发展过程中需要解决的首要问题。维基百科是目前全世界最大的多语种、开放式的在线百科全书。它的大量信息以文本形式呈现,而大部分的概念正是需要从自然语言文本中获取。并且维基百科是一种半结构化的文本,可以方便地获取其文本内容、标题、链接和分类等信息,并且其文本内容覆盖面广、准确度高,可以保证概念的生成和推理的有效性。因此,维基百科常作为验证知识获取方法有效性的知识源。
技术实现思路
本专利技术的目的在于提出一种基于文本语义的概念生成模型和方法。本专利技术综合考虑了概念的上下文语境和语义信息,给出了概念的特征分析、语境的获取、候选概念的聚类、模式泛化、相似度计算与加权方法。在已有概念的基础上生成新的概念,并且通过实验,验证了该专利技术的有效性。一种基于文本语义的概念生成模型,该模型包括Web语料、中文语料库、已有概念库、候选概念词构件库;Web语料与中文语料库相连接,中文语料库通过抽取已有概念与已有概念库连接;已有概念库的前部特征库、后部特征库输入至候选概念词构件库;候选概念词构件库的处理方法分为基于统计方法相结合方法、基于上下文语境相结合方法和上述两者的结合,进行输出结果;输出结果分为新概念库和构词规则库。利用上述一种基于文本语义的概念生成模型进行的方法,其特征包括如下步骤:步骤1:获取中文语料库。并对文本进行预处理。步骤2:抽取语料库中已有的概念。步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件。步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件。步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度。步骤6:利用相似度特征对候选概念词构件聚类,并设定阈值,相似度大于阈值的候选概念词构件可以互换其前部特征或后部特征组成新的概念。并对具有同一前部特征或后部特征的已有概念进行聚类,总结某一前部特征或后部特征下的构词规律,扩充构词规则库。该方法包括如下步骤,步骤1:获取中文语料库;并对文本进行预处理;步骤2:抽取语料库中已有的概念;对所有的已知概念做如下预处理:(1)去除包含英文、日文、韩文特殊字符的概念;(2)去重,因本方法的研究对象为不同的概念,所以重复的概念不会影响最终的结果;(3)去除人名,去除的人名是英文音译为中文的,对总结构词规则没有太大贡献;经过上述预处理后组成已有的概念库;步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件;(1)分词,利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理,提取出已有概念的候选前部特征和候选后部特征;(2)对候选前部特征和后部特征按频数从高到低进行排序,筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理,保留多字词和标记为名词成分的单字词,组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库,用作生成新概念词首部或尾部的构件;步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件;针对概念库中的所有概念词,依据前部特征库和后部特征库,分别去除其前部特征或后部特征,得到候选概念词构件库;步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度;方法描述如下:输入:文本预处理后的文档集合D={d1,d2,d3,…dN},N为文档集合的总数;其中,D表示维基百科中的所有条目所对应的页面信息的集合,dt表示维基百科中某一个条目所对应的页面信息;待计算相似度的所有候选概念词构件W={w1,w2,w3,…wm},m为候选概念词构件的总数;其中,W表示所有候选概念词构件的集合,wi表示某一个候选概念词构件;5.1、基于统计的方法本质上是基于词频的方法,假设针对同一条目下的两个候选概念词构件,若这两个候选概念词构件和条目相关度相似,则这两个候选概念词构件相似;该方法用TF-IDF计算某一候选概念词构件与该词所在条目的相关度,用每个候选概念词构件与条目的相关度,计算两两候选概念词构件之间的相似度;考虑到维基百科本身的特殊性,往往每个条目正文的首段要比其他位置的信息更重要,所以本方法将出现在首段的候选概念词构件的权重为其他位置的两倍;Step1:计算候选概念词构件与条目之间的相关度表示某候选概念词构件wi和某条目dt的关系紧密程度;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示候选概念词构件wi在文档dt其他位置出现的次数;表示某候选概念词构件wi的稀缺程度,即这个某候选概念词构件wi出现的几率;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示表示某候选概念词构件wi和在条目dt其他位置出现的次数;rel(dt,wi)=TF(dt,wi)×IDF(dt,wi)表示某候选概念词构件wi和某条目dt的相关度;Step2:计算候选概念词构件之间的相似性表示在同一条目dt下,wi和wj的相关度;表示在文档集合D中,wi和wj关于共现条目的相似度;若共存条目的个数小于阈值,则去找候选概念词构件所在条目的共同上位,因维基百科分类详细且层数较多,共同上位只限制在所在条目的上三层,然后利用统计方法计算候选概念词构件所在条目之间的相关度,进而得出候选概念词构件之间的相似性;dk为dt和dn的某个最近共同上位表示候选概念词构件所在条目dt和dn与最近共同上位dk的相关度;其中,dt,dn,dk∈D表示在文档集合D中,wi和wj关于共同上位的相似度;本文档来自技高网...

【技术保护点】
一种基于文本语义的概念生成模型的系统,其特征在于:该模型包括Web语料、中文语料库、已有概念库、候选概念词构件库;Web语料与中文语料库相连接,中文语料库通过抽取已有概念与已有概念库连接;已有概念库的前部特征库、后部特征库输入至候选概念词构件库;候选概念词构件库的处理方法分为基于统计方法相结合方法、基于上下文语境相结合方法和上述两者的结合,进行输出结果;输出结果分为新概念库和构词规则库。

【技术特征摘要】
1.一种基于文本语义的概念生成方法,其特征在于:该方法包括如下步骤,
步骤1:获取中文语料库;并对文本进行预处理;
步骤2:抽取语料库中已有的概念,并对所有的已有的概念做如下预处理
(1)去除包含英文、日文、韩文特殊字符的概念;
(2)去重;
(3)去除人名,去除的人名是英文音译为中文的人名;
经过上述预处理后组成已有的概念库;
步骤3:利用词法分析和统计方法,提取出已有概念的前部特征和后部特征,组成前部特征库和后部特征库,作为生成新概念词的首部、尾部的构件;
(1)分词,利用中国科学院计算技术研究所分词系统ICTCLAS对概念库中的所有已有概念进行分词处理,提取出已有概念的候选前部特征和候选后部特征;
(2)对候选前部特征和后部特征按频数从高到低进行排序,筛选出出现频数100以上的候选前部特征、后部特征并对其再一次进行分词处理,保留多字词和标记为名词成分的单字词,组成可用于和其他字、词结合生成新概念的前部特征库和后部特征库,用作生成新概念词首部或尾部的构件;
步骤4:将已有概念除去前部特征或后部特征,得到用于生成新概念词的候选概念词构件;
针对已有的概念库中的所有概念词,依据前部特征库和后部特征库,分别去除其前部特征或后部特征,得到候选概念词构件库;
步骤5:分别利用基于统计方法、基于上下文语境方法以及基于上下文语境方法和基于统计方法相结合的方法,计算候选概念词构件的相似度;
输入:文本预处理后的文档集合D={d1,d2,d3,…dN},N为文档集合的总数;
其中,D表示维基百科中的所有条目所对应的页面信息的集合,表示维基百科中某一个条目所对应的页面信息;
待计算相似度的所有候选概念词构件W={w1,w2,w3,…wm},m为候选概念词构件的总数;其中,W表示所有候选概念词构件的集合,表示某一个候选概念词构件;
5.1、基于统计的方法
本质上是基于词频的方法,假设针对同一条目下的两个候选概念词构件,若这两个候选概念词构件和条目相关度相似,则这两个候选概念词构件相似;
该基于词频的方法用TF-IDF计算某一候选概念词构件与候选概念词构件的集合中的另一个候选概念词构件所在条目的相关度,用每个候选概念词构件与条目的相关度,计算两两候选概念词构件之间的相似度;每个条目正文的首段要比正文其他位置的信息更重要,所以将出现在正文首段的候选概念词构件的权重设置为2,出现正文其他位置的候选概念词构件的权重设置为1;
S1:计算候选概念词构件与条目之间的相关度



表示某候选概念词构件wi和某条目dt的关系紧密程度;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示候选概念词构件wi在文档dt其他位置出现的次数;



表示某候选概念词构件wi的稀缺程度,即这个某候选概念词构件wi出现的几率;其中,C1(dtf,wi)表示候选概念词构件wi在文档dt的首段中出现的次数,C2(dt,wi)表示某候选概念词构件wi和在条目dt其他位置出现的次数;
rel(dt,wi)=TF(dt,wi)×IDF(dt,wi)
表示某候选概念词构件wi和某条目dt的相关度;
S2:计算候选概念词构件之间的相似性



表示在同一条目dt下,wi和wj的相关度;



表示在文档集合D中,wi...

【专利技术属性】
技术研发人员:刘磊蔡海博常晓飞李静汪海洲
申请(专利权)人:北京工业大学北京富雷姆科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1