一种高效的新术语识别系统和方法技术方案

技术编号:15616604 阅读:184 留言:0更新日期:2017-06-14 03:30
本发明专利技术涉及一种高效的新术语识别系统和方法,其系统包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;其方法包括以下步骤:第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;第三步:验证模块C对识别的新术语进行验证;本发明专利技术提出了一种精度高、召回率高的新术语识别方法和系统。新术语的识别精度为93.8%。

【技术实现步骤摘要】
一种高效的新术语识别系统和方法
本专利技术涉及汉语自然语言处理、汉语新词语自动识别领域,特别是涉及一种新术语自动识别系统和方法。
技术介绍
伴随互联网的快速发展,各类新术语层出不穷,这个自然语言处理应用、自动应用软件(如分词系统)、词典收编工作灯带来很大的困难。新术语识别的研究已经展开了多年。现存的方法有以下三类。第一基于统计的方法。例如,KennethWardChurch和BéatriceDaille等人使用互信息(MutualInformation)来抽取词语的固定组合和搭配,他们认为频繁共现的邻近字符组合一般都是术语,然后使用互信息判断词组的共现程度。又如,TedDunning和JonathanD.Cohen等人采用用对数似然比(Log-LikelihoodRatio)来统计低频词语的识别问题,从理论和事实两方面论证了这种方法的有效性。统计方法还包括条件随机场方法、隐马尔科夫方法、最大熵方法等。第二是基于语言学特征和词法模式的方法。例如,刘磊、王石和田国刚采用多特征,结合词法和句法模式,获得新的专业术语。第三是前两种方法的集成应用,因而克服了各自的不足。但是,经过详细的实验分析,上述方法存以下两个问题。问题1:新术语识别精度问题。采用纯统计的方法,虽然能识别较多地新术语,但是通常会引入大量的错误;也即,不是新术语的汉字串,被误以为是新术语。例如,在语句“总部组织干部学习中央精神”中,采用统计方法时,很容易就将“总部组织干部”、“组织干部”、“干部学习”等误识为新术语,而本质上,它们均不是。另一方面,要确保新术语额度识别精度很高,识别广度又受到限制。这是本专利技术需要解决的关键问题之一。问题2:新术语识别广度问题。由于词语的组合情况很多,因此新术语自动识别很容易遗漏掉新有意义的术语。因此,如何提高识别广度是一个重要的问题。这也是本专利技术需要解决的关键问题之一。
技术实现思路
本专利技术所要解决的技术问题:新术语识别精度问题、识别广度问题。针对问题1,本专利技术引入了种子术语词典技术,不仅利用种子词典进行新术语的识别,同时也用它来验证新获得的新术语。针对问题2,本专利技术引入了多源迭代式新术语识别技术。首先,采用多源分析方法,根据多个文本进行比照验证,提升新术语的识别精度;同时将获得的新术语加入到种子术语词典中,不断地循环使用,从而获得更多的新术语。为了实现上述目的,本专利技术提供了如下技术方案:一种高效的新术语识别系统,其特征在于:包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;上面所述模块中,模块A对输入文本库RCorpus中的每篇文挡进行分词,形成分词后的文本词序列,因此形成分词后的文本库TCorpus,供新术语识别模块B使用;新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别,形成一组待验证的新术语结果,供验证模块C使用;验证模块C对新术语识别模块B识别的新术语进行进一步的验证。一种高效的新术语识别方法,其特征在于:包括以下步骤:第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词,分词结果为T′=W1/pos1W2/pos2…Wi/posi…Wn/posn,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;为了表示区别,RCorpus中的每篇文本文本经过分词后,所产生的文本,我们记为TCorpus;第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;当前待识别文本为Di,Ti为它的标题,Sij为Di的当前待识别的第j条语句;对Sij进行以下步骤的处理,形成候选的新术语结果,存放在集合tmp_result中:步骤B1:设置tmp_result为空;tmp_result用于存放识别出的新术语结果,传递给验证模块C进行验证。因此,tmp_result中的新术语结果也称候选的新术语结果,也称待验证的新术语结果;步骤B2:将Sij中连续最长的、词性标记为a、b、j、n、m、q的词形成一个候选新术语,记为NewTerm;所述“连续最长”,是指在Sij中NewTerm的两端没有词性为a、b、j、n的词;步骤B3:如果在Sij中紧接着NewTerm的词语W的词性是k,即W可能是NewTerm的后缀,则设置步骤B4:如果在Sij中位于NewTerm之前的词语W的词性是h,即W可能是NewTerm的后缀,则设置步骤B5:将(NewTerm,Ti,Sij)放入tmp_result中;第三步:验证模块C对识别的新术语进行验证;验证模块C的主要工作是采用多源验证法、特殊验证法,对新术语识别模块B产生的tmp_result中的新术语进行验证,验证过的新术语放入集合result中;验证模块C的方法如下:步骤C1:设置result为空;步骤C2:对tmp_result中的每一对(NewTerm,Ti,Sij)循环做以下步骤C3、C4和C5;步骤C3:如果在tmp_result中存在(NewTerm,Ti′,Sij′),并且Ti与Ti′不同“即NewTerm出现在TCorpus中的两篇不同的文本中”,则将NewTerm放入result中;否则,执行步骤C4;如上述步骤C3中所述,尽管NewTerm在题名为Ti的语句Sij中被识别为候选新术语,但是NewTerm并不一定就是一个正确的新术语;但是,在题名为Ti′的语句Sij′中也被识别为新术语,则NewTerm是正确的新术语的可能性会大大提升;步骤C4:如果在种子词典中存在一个种子术语Term,使得NewTerm与Term的加权相似度wsim(NewTerm,Term)>α,其中α∈[0,1]为一个阈值),则将NewTerm放入result中;否则,执行步骤C5;为给出两个术语的加权相似度wsim(NewTerm,Term)的计算,我们先给出函数2gram的计算方法;对一个非空汉字串Sent=C1C2…Ci-1Ci…CK-1CK,其中Ci为汉字、数字、英文字母,我们引入一个带头尾标记的汉字串Sent=$C1C2…Ci-1Ci…CK-1CK$;2gram(Sent)是一个由Sent中自左向右连续的两个字符构成的集合,即2gram(Sent)={$C1,C1C2,…,Ck-1CK,CK$};需要指出的是,2gram(Sent)中各个元素的重要性不相同:Ci-1Ci是汉语中的一个词时,Ci-1Ci在2gram(Sent)的作用更大;为了反映出2gram(Sent)中各个元素的重要性,对前面定义的Interset(S1,S2)进行改进,引入一个新的基数,叫作加权交集基数WInterset(S1,S2);其计算方法如下:对给定了两个集合S1和S2:(1)WInterset(S1,S2)=0;(2)对Interset(S1,S2)每一个元素e,如果e是汉语中的一个词,则WInterset(S1,S2)=WInterset(S1,S2)+1.2,即W本文档来自技高网
...
一种高效的新术语识别系统和方法

【技术保护点】
一种高效的新术语识别系统,其特征在于:包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;上面所述模块中,模块A对输入文本库RCorpus中的每篇文挡进行分词,形成分词后的文本词序列,因此形成分词后的文本库TCorpus,供新术语识别模块B使用;新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别,形成一组待验证的新术语结果,供验证模块C使用;验证模块C对新术语识别模块B识别的新术语进行进一步的验证。

【技术特征摘要】
1.一种高效的新术语识别系统,其特征在于:包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;上面所述模块中,模块A对输入文本库RCorpus中的每篇文挡进行分词,形成分词后的文本词序列,因此形成分词后的文本库TCorpus,供新术语识别模块B使用;新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别,形成一组待验证的新术语结果,供验证模块C使用;验证模块C对新术语识别模块B识别的新术语进行进一步的验证。2.一种高效的新术语识别方法,其特征在于:包括以下步骤:第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词,分词结果为T′=W1/pos1W2/pos2…Wi/posi…Wn/posn,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;为了表示区别,RCorpus中的每篇文本文本经过分词后,所产生的文本,我们记为TCorpus;第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;当前待识别文本为Di,Ti为它的标题,Sij为Di的当前待识别的第j条语句;对Sij进行以下步骤的处理,形成候选的新术语结果,存放在集合tmp_result中:步骤B1:设置tmp_result为空;tmp_result用于存放识别出的新术语结果,传递给验证模块C进行验证。因此,tmp_result中的新术语结果也称候选的新术语结果,也称待验证的新术语结果;步骤B2:将Sij中连续最长的、词性标记为a、b、j、n、m、q的词形成一个候选新术语,记为NewTerm;所述“连续最长”,是指在Sij中NewTerm的两端没有词性为a、b、j、n的词;步骤B3:如果在Sij中紧接着NewTerm的词语W的词性是k,即W可能是NewTerm的后缀,则设置NewTerm=NewTerm⊕W;步骤B4:如果在Sij中位于NewTerm之前的词语W的词性是h,即W可能是NewTerm的后缀,则设置NewTerm=W⊕NewTerm;步骤B5:将(NewTerm,Ti,Sij)放入tmp_result中;第三步:验证模块C对识别的新术语进行验证;验证模块C的主要工作是采用多源验证法、特殊验证法,对新术语识别模块B产生的tmp_result中的新术语进行验证,验证过的新术语放入集合result中;验证模块C的方法如下:步骤C1:设置result为空;步骤C2:对tmp_result中的每一对(NewTerm,Ti,Sij)循环做以下步骤C3、C4和C5;步骤C3:如果在tmp_result中存在(NewTerm,Ti′,Sij′),并且Ti与Ti′不同“即NewTerm出...

【专利技术属性】
技术研发人员:符建辉王卫明曹阳
申请(专利权)人:镇江诺尼基智能技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1