【技术实现步骤摘要】
一种高效的新术语识别系统和方法
本专利技术涉及汉语自然语言处理、汉语新词语自动识别领域,特别是涉及一种新术语自动识别系统和方法。
技术介绍
伴随互联网的快速发展,各类新术语层出不穷,这个自然语言处理应用、自动应用软件(如分词系统)、词典收编工作灯带来很大的困难。新术语识别的研究已经展开了多年。现存的方法有以下三类。第一基于统计的方法。例如,KennethWardChurch和BéatriceDaille等人使用互信息(MutualInformation)来抽取词语的固定组合和搭配,他们认为频繁共现的邻近字符组合一般都是术语,然后使用互信息判断词组的共现程度。又如,TedDunning和JonathanD.Cohen等人采用用对数似然比(Log-LikelihoodRatio)来统计低频词语的识别问题,从理论和事实两方面论证了这种方法的有效性。统计方法还包括条件随机场方法、隐马尔科夫方法、最大熵方法等。第二是基于语言学特征和词法模式的方法。例如,刘磊、王石和田国刚采用多特征,结合词法和句法模式,获得新的专业术语。第三是前两种方法的集成应用,因而克服了各自的不足。但是,经过详细的实验分析,上述方法存以下两个问题。问题1:新术语识别精度问题。采用纯统计的方法,虽然能识别较多地新术语,但是通常会引入大量的错误;也即,不是新术语的汉字串,被误以为是新术语。例如,在语句“总部组织干部学习中央精神”中,采用统计方法时,很容易就将“总部组织干部”、“组织干部”、“干部学习”等误识为新术语,而本质上,它们均不是。另一方面,要确保新术语额度识别精度很高,识别广度又受到限制。这 ...
【技术保护点】
一种高效的新术语识别系统,其特征在于:包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;上面所述模块中,模块A对输入文本库RCorpus中的每篇文挡进行分词,形成分词后的文本词序列,因此形成分词后的文本库TCorpus,供新术语识别模块B使用;新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别,形成一组待验证的新术语结果,供验证模块C使用;验证模块C对新术语识别模块B识别的新术语进行进一步的验证。
【技术特征摘要】
1.一种高效的新术语识别系统,其特征在于:包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;上面所述模块中,模块A对输入文本库RCorpus中的每篇文挡进行分词,形成分词后的文本词序列,因此形成分词后的文本库TCorpus,供新术语识别模块B使用;新术语识别模块B对分词后的文本库TCorpus中的每篇文档进行新术语识别,形成一组待验证的新术语结果,供验证模块C使用;验证模块C对新术语识别模块B识别的新术语进行进一步的验证。2.一种高效的新术语识别方法,其特征在于:包括以下步骤:第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词,分词结果为T′=W1/pos1W2/pos2…Wi/posi…Wn/posn,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;为了表示区别,RCorpus中的每篇文本文本经过分词后,所产生的文本,我们记为TCorpus;第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;当前待识别文本为Di,Ti为它的标题,Sij为Di的当前待识别的第j条语句;对Sij进行以下步骤的处理,形成候选的新术语结果,存放在集合tmp_result中:步骤B1:设置tmp_result为空;tmp_result用于存放识别出的新术语结果,传递给验证模块C进行验证。因此,tmp_result中的新术语结果也称候选的新术语结果,也称待验证的新术语结果;步骤B2:将Sij中连续最长的、词性标记为a、b、j、n、m、q的词形成一个候选新术语,记为NewTerm;所述“连续最长”,是指在Sij中NewTerm的两端没有词性为a、b、j、n的词;步骤B3:如果在Sij中紧接着NewTerm的词语W的词性是k,即W可能是NewTerm的后缀,则设置NewTerm=NewTerm⊕W;步骤B4:如果在Sij中位于NewTerm之前的词语W的词性是h,即W可能是NewTerm的后缀,则设置NewTerm=W⊕NewTerm;步骤B5:将(NewTerm,Ti,Sij)放入tmp_result中;第三步:验证模块C对识别的新术语进行验证;验证模块C的主要工作是采用多源验证法、特殊验证法,对新术语识别模块B产生的tmp_result中的新术语进行验证,验证过的新术语放入集合result中;验证模块C的方法如下:步骤C1:设置result为空;步骤C2:对tmp_result中的每一对(NewTerm,Ti,Sij)循环做以下步骤C3、C4和C5;步骤C3:如果在tmp_result中存在(NewTerm,Ti′,Sij′),并且Ti与Ti′不同“即NewTerm出...
【专利技术属性】
技术研发人员:符建辉,王卫明,曹阳,
申请(专利权)人:镇江诺尼基智能技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。