一种高效的新术语识别系统和方法技术方案

技术编号：15616604 阅读：198 留言：0更新日期：2017-06-14 03:30

本发明专利技术涉及一种高效的新术语识别系统和方法，其系统包括对输入文本库RCorpus中的每篇文档进行分词，形成文本词序列模块A；对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B；对识别的新术语进行验证模块C；其方法包括以下步骤：第一步：文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词，形成文本词序列；第二步：新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别；第三步：验证模块C对识别的新术语进行验证；本发明专利技术提出了一种精度高、召回率高的新术语识别方法和系统。新术语的识别精度为93.8％。

全部详细技术资料下载

【技术实现步骤摘要】
一种高效的新术语识别系统和方法
本专利技术涉及汉语自然语言处理、汉语新词语自动识别领域，特别是涉及一种新术语自动识别系统和方法。
技术介绍
伴随互联网的快速发展，各类新术语层出不穷，这个自然语言处理应用、自动应用软件(如分词系统)、词典收编工作灯带来很大的困难。新术语识别的研究已经展开了多年。现存的方法有以下三类。第一基于统计的方法。例如，KennethWardChurch和BéatriceDaille等人使用互信息(MutualInformation)来抽取词语的固定组合和搭配，他们认为频繁共现的邻近字符组合一般都是术语，然后使用互信息判断词组的共现程度。又如，TedDunning和JonathanD.Cohen等人采用用对数似然比(Log-LikelihoodRatio)来统计低频词语的识别问题，从理论和事实两方面论证了这种方法的有效性。统计方法还包括条件随机场方法、隐马尔科夫方法、最大熵方法等。第二是基于语言学特征和词法模式的方法。例如，刘磊、王石和田国刚采用多特征，结合词法和句法模式，获得新的专业术语。第三是前两种方法的集成应用，因而克服了各自的不足。但是，经过详细的实验分析，上述方法存以下两个问题。问题1：新术语识别精度问题。采用纯统计的方法，虽然能识别较多地新术语，但是通常会引入大量的错误；也即，不是新术语的汉字串，被误以为是新术语。例如，在语句“总部组织干部学习中央精神”中，采用统计方法时，很容易就将“总部组织干部”、“组织干部”、“干部学习”等误识为新术语，而本质上，它们均不是。另一方面，要确保新术语额度识别精度很高，识别广度又受到限制。这...
一种高效的新术语识别系统和方法

【技术保护点】
一种高效的新术语识别系统，其特征在于：包括对输入文本库RCorpus中的每篇文档进行分词，形成文本词序列模块A；对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B；对识别的新术语进行验证模块C；上面所述模块中，模块A对输入文本库RCorpus中的每篇文挡进行分词，形成分词后的文本词序列，因此形成分词后的文本库TCorpus，供新术语识别模块B使用；新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别，形成一组待验证的新术语结果，供验证模块C使用；验证模块C对新术语识别模块B识别的新术语进行进一步的验证。

【技术特征摘要】
1.一种高效的新术语识别系统，其特征在于：包括对输入文本库RCorpus中的每篇文档进行分词，形成文本词序列模块A；对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B；对识别的新术语进行验证模块C；上面所述模块中，模块A对输入文本库RCorpus中的每篇文挡进行分词，形成分词后的文本词序列，因此形成分词后的文本库TCorpus，供新术语识别模块B使用；新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别，形成一组待验证的新术语结果，供验证模块C使用；验证模块C对新术语识别模块B识别的新术语进行进一步的验证。2.一种高效的新术语识别方法，其特征在于：包括以下步骤：第一步：文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词，形成文本词序列；我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词，分词结果为T′＝W1/pos1W2/pos2…Wi/posi…Wn/posn，其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母，posi是其对应的词性；为了表示区别，RCorpus中的每篇文本文本经过分词后，所产生的文本，我们记为TCorpus；第二步：新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别；当前待识别文本为Di，Ti为它的标题，Sij为Di的当前待识别的第j条语句；对Sij进行以下步骤的处理，形成候选的新术语结果，存放在集合tmp_result中：步骤B1：设置tmp_result为空；tmp_result用于存放识别出的新术语结果，传递给验证模块C进行验证。因此，tmp_result中的新术语结果也称候选的新术语结果，也称待验证的新术语结果；步骤B2：将Sij中连续最长的、词性标记为a、b、j、n、m、q的词形成一个候选新术语，记为NewTerm；所述“连续最长”，是指在Sij中NewTerm的两端没有词性为a、b、j、n的词；步骤B3：如果在Sij中紧接着NewTerm的词语W的词性是k，即W可能是NewTerm的后缀，则设置NewTerm＝NewTerm⊕W；步骤B4：如果在Sij中位于NewTerm之前的词语W的词性是h，即W可能是NewTerm的后缀，则设置NewTerm＝W⊕NewTerm；步骤B5：将(NewTerm，Ti，Sij)放入tmp_result中；第三步：验证模块C对识别的新术语进行验证；验证模块C的主要工作是采用多源验证法、特殊验证法，对新术语识别模块B产生的tmp_result中的新术语进行验证，验证过的新术语放入集合result中；验证模块C的方法如下：步骤C1：设置result为空；步骤C2：对tmp_result中的每一对(NewTerm，Ti，Sij)循环做以下步骤C3、C4和C5；步骤C3：如果在tmp_result中存在(NewTerm，Ti′，Sij′)，并且Ti与Ti′不同“即NewTerm出...

【专利技术属性】
技术研发人员：符建辉，王卫明，曹阳，
申请(专利权)人：镇江诺尼基智能技术有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人