一种汉语兼语结构获取方法技术

技术编号:15616611 阅读:131 留言:0更新日期:2017-06-14 03:30
本发明专利技术涉及一种汉语兼语结构获取方法,包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;识别分词语料库TCorpus中的每条语句S

【技术实现步骤摘要】
一种汉语兼语结构获取系统和方法
本专利技术涉及汉语自然语言处理、汉语语法结构自动识别领域,特别是涉及一种汉语兼语结构自动识别系统和方法。
技术介绍
汉语兼语句是一类特殊的语言现象。例如,给出以下三条语句(采用空格,并且标注了词性,这样便于突出句子中的兼语语境):S1:“组委会/n邀请/v他们/r参加/v会议/n”S2:“学校/n支持/v毕业生/n创业/v”S3:“哪位/r让/v这/r只/q瓶子/n掉/v地上/s了/u?/w”在S1中,“他们”是动词“邀请”的宾语,同时也是动词“参加”的主语,因此在S1中,“他们”是兼语。在S2中,“毕业生”是动词“支持”的宾语,同时也是动词“创业”的主语,因此在S2中,“毕业生”是兼语。同样,在S3中,“这只瓶子”是“让”的宾语,同时也是动词“掉”的主语,因此在S3中,“这只瓶子”是兼语。从这三个典型的例子可以看出,汉语兼语句是一种常见的语言现象。30多年来,朱德熙、丁树声、黄伯荣、吕冀平、吴启生等国内知名学者从语法或语义角度对汉语兼语句进行了系统的研究,对人们认识汉语兼语句发挥了重要的作用。除了理论研究价值、汉语教学和培训外,随着互联网应用的全面发展,兼语结构研究还具有许多重要的用途。例如,汉语兼语结构可以用作语音识别中的语言模型的一部分,对自动创建这种语言模型具有重要的辅助作用。又如,未登录词识别问题一直是一个重要的问题:给定一个词典,不在此词典出现的词称为未登录词。因为任何一部词典在开始时收词有限,需要在实际应用中不断地补充。未登录词识别或词典补充中的一个技术困难就是如何精确地确定未登录词的左右边界。而如何通过对大语料处理和分析,从中有效地获取兼语结构,形成兼语结构库?如何验证哪些动词、在什么条件下与什么名词结合才能形成兼语结构?这些问题一直没有得到充分的关注和研究。
技术实现思路
针对如何通过对大语料处理和分析,从中有效地获取兼语结构,形成兼语结构库;如何验证哪些动词、在什么条件下与什么名词结合才能形成兼语结构的问题本专利技术提供了一种汉语兼语结构获取系统和方法。为了解决以上问题本专利技术采用了如下技术方案:一种汉语兼语结构获取系统,其特征在于:包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus的模块A;识别分词语料库TCorpus中的每条语句Si中动词的模块B;应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中的模块C;验证候选兼语结构库SOBase,并输出最终结果SOBaseResult的模块D;上面所述模块中,模块A采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本进行分词,并且将每篇文本按照句子的自然分割进行分拆,形成不含有句子标点符号的简单句;因此,TCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;模块A产生分词后的结果将传给模块B,模块B识别分词语料库TCorpus中的每条语句Si中的动词或动词词组;模块B对TCorpus中的每条语句Si进行动词合并处理,即出现“W1/vW2/v”时,则按照“W1W2/v”进行合并处理,即将两个或两个以上的动词,合并为一个动词,称此过程为动词合并处理;在上述处理后,对修饰动词的副词进行消除处理,即将动词前的所有修饰副词全部删除;模块B完成动词识别、副词处理后,将结果传给模块C;模块C应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;模块C完成兼语模式分析后,将结果传给模块D以便验证兼语结构的正确性;模块D对候选兼语结构库SOBase中的每条记录<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>进行兼语搭配常见性验证、兼语搭配多样性验证。一种汉语兼语结构获取方法,其特征在于:包括以下步骤:第一步:对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;采用一个开源的ICTCLAS系统对Corpus中的每篇输入文本D进行分词,并且将每篇文本按照句子的自然分割进行分拆,形成不含有句子标点符号的简单句;因此,TCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;在分词算法中,词性的标记已经在计算机界通行;通常的词性有a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词;第二步:识别分词语料库TCorpus中的每条语句Si中的动词或动词词组;当出现“W1/vW2/v”,则按照“W1W2/v”进行合并处理,即将两个或两个以上的动词,合并为一个动词,称此过程为动词合并处理;在上述处理后,对修饰动词的副词进行消除处理,即将动词前的所有修饰副词全部删除;将处理后的语句仍放入TCorpus中;第三步:应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;所述应用兼语模式对TCorpus中的语句进行分析,是指采用5种兼语模式,将TCorpus中的符合兼语模式之一的语句挑选出来,置入待验证的兼语结构库SOBase中;具体而言,对TCorpus中任一语句SOi,当它含有超过2的动词,或者仅含有1个动词,则放弃该句;否则,设SOi的形式为“Ni,1Vi,1Ni,2Vi,2Ni,3”,这里,下标i代表第i个语句意思;下面的主要任务是检查Ni,2是否满足5种兼语模式之一;如果满足5种兼语模式之一,则将二元对<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>放入SOBase中;否则,放弃SOi;所述的5种兼语模式:设兼语句的一般形式为“N1V1N2V2N3”,其中N2即为兼语;在获取兼语结构时,仅考虑兼语N2满足以下模式的兼语语句,也就是,当语料库足够大时,兼语是其它形式的兼语句的兼语结构也能从兼语满足以下5种模式的兼语句中获得:模式1:数词+名词;模式2:数词+量词+名词;模式3:{这,这场,这次,这个,这位,这种,这些,那,那场,那次,那个,那位,那种,那些,它,它们},该集合中的元素为常见代词,通常用于指代非生命的物体或者动物,其中的任何一个元素本身都是一个模式;模式4:{这,这场,这次,这个,这位,这种,这些,那,那场,那次,那个,那位,那种,那些}+名词,这是一个由代词与名称构成的兼语模式;模式5:{他,他们,我,我们,她,她们},该集合中的元素为常见代词,通常用于指代人物,其中的任何一个元素本身都是一个模式;第四步:验证候选兼语结构库SOBase,并输出最终结果SOBaseResult;对候选兼语结构库SOBase中的每条记录<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”&本文档来自技高网
...
一种汉语兼语结构获取方法

【技术保护点】
一种汉语兼语结构获取系统,其特征在于:包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus的模块A;识别分词语料库TCorpus中的每条语句S

【技术特征摘要】
1.一种汉语兼语结构获取系统,其特征在于:包括对原始训练语料库Corpus进行分词,形成分词语料库TCorpus的模块A;识别分词语料库TCorpus中的每条语句Si中动词的模块B;应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中的模块C;验证候选兼语结构库SOBase,并输出最终结果SOBaseResult的模块D;上面所述模块中,模块A采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本进行分词,并且将每篇文本按照句子的自然分割进行分拆,形成不含有句子标点符号的简单句;因此,TCorpus每个句子的形式为Si=“W1/poslW2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;模块A产生分词后的结果将传给模块B,模块B识别分词语料库TCorpus中的每条语句Si中的动词或动词词组;模块B对TCorpus中的每条语句Si进行动词合并处理,即出现“W1/vW2/v”时,则按照“W1W2/v”进行合并处理,即将两个或两个以上的动词,合并为一个动词,称此过程为动词合并处理;在上述处理后,对修饰动词的副词进行消除处理,即将动词前的所有修饰副词全部删除;模块B完成动词识别、副词处理后,将结果传给模块C;模块C应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;模块C完成兼语模式分析后,将结果传给模块D以便验证兼语结构的正确性;模块D对候选兼语结构库SOBase中的每条记录<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>进行兼语搭配常见性验证、兼语搭配多样性验证。2.一种汉语兼语结构获取方法,其特征在于:包括以下步骤:第一步:对原始训练语料库Corpus进行分词,形成分词语料库TCorpus;采用一个开源的ICTCLAS系统对Corpus中的每篇输入文本D进行分词,并且将每篇文本按照句子的自然分割进行分拆,形成不含有句子标点符号的简单句;因此,TCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/pos1…Wn/posn”,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;在分词算法中,词性的标记已经在计算机界通行;通常的词性有a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词;第二步:识别分词语料库TCorpus中的每条语句Si中的动词或动词词组;当出现“W1/vW2/v”,则按照“W1W2/v”进行合并处理,即将两个或两个以上的动词,合并为一个动词,称此过程为动词合并处理;在上述处理后,对修饰动词的副词进行消除处理,即将动词前的所有修饰副词全部删除;将处理后的语句仍放入TCorpus中;第三步:应用兼语模式对TCorpus中的语句进行分析,对满足兼语模式的语句形成候选兼语结构,并且置入待验证的兼语结构库SOBase中;所述应用兼语模式对TCorpus中的语句进行分析,是指采用5种兼语模式,将TCorpus中的符合兼语模式之一的语句挑选出来,置入待验证的兼语结构库SOBase中;具体而言,对TCorpus中任一语句SOi,当它含有超过2的动词,或者仅含有1个动词,则放弃该句;否则,设SOi的形式为“Ni,1Vi,1Ni,2Vi,2Ni,3”,这里,下标i代表第i个语句意思;下面的主要任务是检查Ni,2是否满足5种兼语模式之一;如果满足5种兼语模式之一,则将二元对<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>放入SOBase中;否则,放弃SOi;所述的5种兼语模式:设兼语句的一般形式为“N1V1N2V2N3”,其中N2即为兼语;在获取兼语结构时,仅考虑兼语N2满足以下模式的兼语语句,也...

【专利技术属性】
技术研发人员:符建辉王卫明曹阳
申请(专利权)人:镇江诺尼基智能技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1