本发明专利技术涉及一种基于词法、句法和句义结构特征的汉语语义格分层识别方法,属于计算机科学与自然语言处理技术领域。本发明专利技术在增加了句义结构特征的基础上,首先获取最小完整语义单元;进而提取词法、句法和句义结构特征并使用C4.5决策树算法进行汉语语义格的初步识别;然后选择词法、句法和句义特征并使用C4.5决策树算法与最大熵算法相结合的方法实现汉语语义格中基本格的精确识别;最后再次选择词法、句法和句义特征并使用C4.5决策树算法实现汉语语义格中一般格的精确识别。与现有语言分析技术相比,本发明专利技术为语义学自动分析自然语言提供了汉语语义格的自动识别,是实现自动语义分析的基础。本发明专利技术可实现并行处理,能够提高计算机处理效率。
【技术实现步骤摘要】
本专利技术涉及一种基于词法、句法和句义结构特征的,属于计算机科学与自然语言处理
技术介绍
汉语语义格是汉语语义学理论中的重要部分,汉语语义学是自然语言处理在语义学层次上分析语言的一个理论,正越来越受到重视。人们通过将各种各样的词语划分为若干个语义格,进而使用分类方法解决识别问题。自然语言处理研究的问题会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。形态学(morphology)研究词的内部结构,包括屈折变化和构词法两个部分;语法学(syntax)研究句子结构成分之间的互相关系和组成句子系列的规则;语义学(semantics)是一门研究意义,特别是语言意义的学科,其关注的重点是语言单元(如词、词组、句子、篇章等)到底说了什么;语用学(pragmatics)是现代语言学用来指从使用者的角度研究语言,关注的重点在于为什么在特定的上下文中要说这句话。形态学和语法学分析问题早已引起人们的广泛关注,并取得了积极的进展;但是却缺乏对语言的深度理解,不能真正实现机器对语言进行正确理解的目的。语义学层次的研究能使计算机进行深层语义的理解,是计算机对语目进行真正理解的关键。汉语语义格识别需要解决2个基本问题:1.如何选取代表性强、区分度高的特征来区分不同的语义格;2.采用何种识别准确率高、速度快的识别方法对不同的语义格进行区分。1.在特征提取方面:(I)词法特征:对汉语的句子进行分词处理,进而提取词法特征,得到词法特征序列。此类特征是形态学这一层上对语言进行分析处理得到的,只能提供词法方面的信息,不能提供更深层次的信息。(2)句法特征:对汉语的句子进行句法处理,进而提取句法特征,得到句法特征序列。此类特征是语法学这一层上对语言进行分析处理得到的,只能提供短语方面的信息。2.在语义格区分方面:(I)支持向量机(SVM)算法:支持向量机(Support Vector Machine, SVM)是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。SVM算法在训练时,需要对核函数、核函数参数不断进行调整以进行优化,因此训练过程往往比较复杂,这是该算法使用中的重要不足;另外,SVM算法是一种两分类算法,对于多种类别的识别,需要对算法做进一步的改进。(2) Naive Bayes算法:该算法产生的理论背景是Bayes定理,并没有考虑可能存在的依赖关系,具有运算量小、能够快速生成挖掘模型的特点,适合作为探索算法,但是识别准确率不高。综上所述,对于汉语语义格识别这一应用场景,现有的特征包括词法和句法特征,存在特征有限、代表性不强、无法表达深层意义等不足;同时,分类算法较多,而汉语语义格识别又是新的领域,需要从众多算法中尝试不同的算法,进而选择速度快、识别准确率高的算法。
技术实现思路
本专利技术的目的是为解决语义分析中语义格识别问题,提出一种基于词法、句法和句义结构特征的语义格识别方法。本专利技术的设计原理为使用词法、句法和句义结构特征和分层次识别的策略实现汉语语义格识别;使用C4.5决策树算·法和最大熵算法相结合的方法提升分层次识别的准确度。句义结构特征:对汉语的句子进行句义处理,进而提取句义结构特征,得到句义结构特征序列。此类特征是语义学这一层次上对语言进行分析处理得到的,能够提供句义方面的信息,相比词法和句法特征,代表性更强。C4.5决策树算法是ID3的后继,是Quinlan于1993年提出的。相比ID3,C4.5有两点较为重要的改进:1)在属性选择上,C4.5使用信息增益率代替了 ID3的信息增益,克服了属性偏倚问题;2)C4.5可以实现对连续值的处理,弥补了 ID3只能处理离散值的不足。决策树比较适合探测式的发现,其构造不需要任何领域知识和参数设置;决策树也可以清晰地反映出较为重要的特征有哪些,进而得到影响汉语语义格识别的主要因素;另外,决策树计算较为简单,速度较快,易于转化为分类规则。分层次识别:根据汉语语义学的理论,汉语句子中的词语可分为三大类:基本格(7种:施事格、遭遇格、主事格、受事格、结果格、说明格、与格)、一般格(范围格、时间格、空间格、工具格、方式格、基准格、根由格、属格、描写格、同位格、否定格、其他格)、非语义格。三个类别中的词语比例大致接近1:1:1,首先进行三个类别的初步识别,可以去除掉大量非语义格,减少待识别词语的数量,达到提高效率的目的;语义格的种类较多,而一般格和基本格的作用和特点都不同,先进行初步识别再进行精确识别有利于调整各自的特征,提高精确识别准确率。本专利技术的技术方案是通过如下步骤实现的:步骤1,为了进行语义学层次的分析,首先对汉语句子进行标注,形成训练测试集A。训练集A中包含的句子数目用m表示。步骤1.1,使用ICTCLAS对汉语句子进行分词处理,并进行校对,标记句子中的词序X= {O, I, 2,…k},其中k为句子中包含词语数目最多时,词的数目。步骤1.2,在步骤1.1的基础上,对汉语句子进行句法标注,得到比词法更高一级句法单元:短语及短语类型,最终得到树状的句法结构。步骤1.3,在步骤1.2的基础上,依据汉语语义学理论对汉语句子进行句义结构标注,得到比句法更高一级的句义结构。步骤2,获取最小完整语义单元,形成训练测试集B,其中训练测试集B中包含有最小语义单元数目用η表示。首先,给出一个定义。定义1:各句义结构类型均以简单句义为基础,因此,定义简单句义的句义结构形式为最小完整语义单元,非简单句义可以通过最小完整语义单元扩展而来。句义结构类型即句义类型,根据汉语句义的实际情况,将句义类型划分为简单句义、复杂句义、复合句义和多重句义四种类型。其中,简单句义是结构最简单的类型,只包含一层句义结构,一般表现为一个命题,通常包括一个谓词(或并列谓词)。复杂句义是指某些句义成分本身就是一个句义或引出一个句义的情况,即一个句义中又包含着一个句义,被包含的句义称为成分句义。复杂句义中可能包含有多个成分句义,但是每一个成分句义都是简单句义,即整个复杂句义只含有两层句义结构。复合句义是指两个或两个以上的简单句义,按照某种语义关系紧密地联结在一起,共同表达一个比较复杂的意思,通常具有两个或两个以上的话题。复合句义中的简单句义叫做分句义,它们都是简单句,且处在同一个层次上。多重句义指某个成分句义自身是一个复杂句义或复合句义,并且因此而含有更多层的句义结构。步骤2.1,获取句义结构的顶层句义类型标记Y= {0,1,2,3},其中Y=0、l、2、3分别代表该句子为简单句义、复杂句义、复合句义、多重句义;将简单句义类型的句子直接输出,其他句子进入下一步处理。步骤2.2,对非简单句义类型进行从顶向下搜索,提取出句子中包含的简单句义部分,输出结果,并用一个标示符标记这个简单句义,将其看作一个整体,化简其上层句义结构。步骤2.3,重复步骤2.2,直到本句的句义结构化简为形如简单句义的一层句义结构形式时,结束对该句的最小完整语义单元的提取工作,输出结果形成训练测试集B。步骤3,进行汉语语义格初步识别。步骤3.1,特征选取,具体步骤如下:步骤3.1.1,综合本文档来自技高网...
【技术保护点】
一种汉语语义格分层识别方法,其特征在于,所述方法包括以下步骤:步骤1,为了进行语义分析,首先对大量汉语句子进行标注,形成训练测试集A。步骤2,获取最小完整语义单元,形成训练测试集B。步骤3,进行汉语语义格初步识别。步骤3.1,特征选取。步骤3.2,根据步骤3.1选取的K1维特征利用C4.5决策树算法进行汉语语义格的初步识别。步骤4,进行汉语语义格中基本格的精确识别。步骤4.1,特征选取。步骤4.2,根据步骤4.1选取的K2维特征采用C4.5决策树算法和最大熵算法相结合的方法进行汉语语义格中基本格的识别。步骤5,汉语语义格中一般格的精确识别。步骤5.1,特征选取。步骤5.2,根据步骤5.1选取的K3维特征采用C4.5决策树算法进行汉语语义格中一般格的精确识别。
【技术特征摘要】
1.一种汉语语义格分层识别方法,其特征在于,所述方法包括以下步骤: 步骤1,为了进行语义分析,首先对大量汉语句子进行标注,形成训练测试集A。步骤2,获取最小完整语义单元,形成训练测试集B。步骤3,进行汉语语义格初步识别。步骤3.1,特征选取。步骤3.2,根据步骤3.1选取的Kl维特征利用C4.5决策树算法进行汉语语义格的初步识别。步骤4,进行汉语语义格中基本格的精确识别。步骤4.1,特征选取。步骤4.2,根据步骤4.1选取的K2维特征采用C4.5决策树算法和最大熵算法相结合的方法进行汉语语义格中基本格的识别。步骤5,汉语语义格中一般格的精确识别。步骤5.1,特征选取。步骤5.2,根据步骤5.1选取的K3维特征采用C4.5决策树算法进行汉语语义格中一般格的精确识别。2.根据权利要求1所述的方法,其特征在于,权利要求1中步骤I中采用ICTCLAS方法对文本进行分词,并根据汉语语义学理论进行词法和句法标注,分别得到词法特征、句法特征和句义结构特征信息 。词法特征是分词后得到的;句法特征是进行句法标注后概括得到的;句义结构特征是进行句义结构标注后概括得到的。3.根据权利要求1所述的方法,其特征在于,权利要求1中步骤2中将所有的汉语句子进行分解,得到形如简单句义句义结构形式的最小完整语义单元,具体步骤包括:步骤1,获取句义结构的顶层句义类型标记Y={0,I, 2,3},其中Y=0、l、2、3分别代表该句子为简单句义、复杂句义、复合句义、多重句义;将简单句义类型的句子直接输出,其他句子进入下一步处理。步...
【专利技术属性】
技术研发人员:罗森林,孟强,潘丽敏,魏超,韩磊,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。