一种汉语口语解析方法及装置制造方法及图纸

技术编号:2843410 阅读:137 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及自然语言处理领域,是一种新的汉语口语解析装置。本发明专利技术设计一种基于统计和规则相结合方法的口语解析装置,利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,获得每个词语对应的一种或多种语义及其概率,最后利用统计解析模型对语义分类树的解析结果进行选择和组合,从而获得整个句子的领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义解析。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,特别涉及口语翻译,人机对话和口语解析的方法和装置。
技术介绍
随着世界经济和科技等方面的发展,不同国家的人们在旅游、贸易等多种场合的交流日益频繁,随之,语言上的障碍也变得日益突出。口语翻译以达到不同语言之间的自由通讯为目的,越来越受到人们的重视。另外,在日常的应用领域中,如电话咨询、自动寻呼、旅馆预定、电话订票、会议预约等等,服务人员的工作完全可以用人机对话系统来代替。人机对话系统信息存储量多,信息检索速度快,动态更新信息的能力强。因此,发展口语翻译技术和口语对话系统蕴含着巨大的社会和经济效益。口语解析技术是口语翻译系统和人机对话系统中的关键技术之一。从上个世纪八十年代以来,以美国、德国、法国和日本为代表的发达国家,对口语解析技术做了大量的研究工作。美国麻省理工学院(MIT)曾于八十年代末期和九十年代初期,先后开发了用于地理信息咨询的VOYAGER系统、用于地理和气象信息库查询的GALAXY系统以及用于在线民航信息咨询的PEGACUS系统和机票预订系统ATIS,MIT为这些对话系统设计了专门的口语解析器TINA;在1993年,欧盟设立了LRE(LanguageResearch and Engineering)计划,日本文部省也同时设立了UGD(Understanding and Generation of Dialogue)计划,这些计划都是专门用于资助口语解析技术研究的。目前常见的口语解析装置采用的方法总体分为基于规则的方法和基于统计的方法。基于规则的方法是传统的口语解析方法,一个共同的缺点是鲁棒性不够好,对于口语中的非规范语言现象不能够很好的处理。近年来,基于统计模型的口语解析方法得到了更多的应用,这种方法利用大规模语料库作为其知识的来源,能够自动获取知识,因此,能够在很大程度上减轻人的负担,并且其知识来源于真实的文本,所以往往具有比较好的鲁棒性和领域移植性。然而,统计的口语解析方法难以处理句子的结构关系和长距离的约束。本文设计的口语解析装置采用统计和规则相结合的方法,实验结果证明,这种方法具有较高的准确率,是一种有效的口语浅层语义解析方法。口语解析装置在口语自动翻译和人机对话等系统中具有非常重要的作用。传统的口语解析装置采用基于规则的方法,难以处理口语的不规范现象,基于统计模型方法的口语解析装置不利于处理句子中长距离约束关系。
技术实现思路
本专利技术的目的在于提供一种新的汉语口语浅层语义解析方法及装置。本文设计了一种基于统计和规则相结合方法的口语解析装置,利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,获得每个词语对应的一种或多种语义及其概率,最后利用统计解析模型对语义分类树的解析结果进行选择和组合,从而获得整个句子的领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义解析。本专利技术以国际语音翻译先进研究联盟C-STAR(Consortium for SpeechTranslation Advanced Research international)提出的中间转化格式IF(Interchange Format)中的领域行为作为口语浅层语义表示,领域行为描述句子的说话意图和基本概念,口语浅层语义解析装置的功能就是获得汉语口语句子的领域行为。本专利技术的特点是具有较高的鲁棒性,能够较好的处理口语中存在的非规范语言现象和句子中词语之间长距离的约束关系。另外,采用统计的方法自动从语料中获取规则,能够快速的实现解析系统在不同领域间的移植,使得这一技术能够很快的在不同领域实现产品化。图1是本专利技术的结构框图,口语浅层语义解析装置主要包括训练和解析两个部分,由预处理装置、人工标记装置、查找装置、语义分类树装置以及统计解析模型装置组成。其中,预处理装置连接于人工标记装置,人工标记装置连接于语义分类树装置和统计解析模型装置,查找装置连接于语义分类树装置。技术方案基于语义分类树的汉语口语解析分为训练和解析两部分,具体过程如下训练过程包括a)收集相关领域的口语语料;b)对句子进行预处理;c)标记句子的领域行为和关键词对应的语义以及关键词的语义相关词;d)利用标记的语料构造语义分类树装置并获得统计解析模型装置的参数;解析过程包括e)对句子进行预处理;f)查找待解析句子中和领域行为密切相关的关键词语;g)利用语义分类树获得每个关键词语的一种或多种语义以及各种语义的概率;h)利用统计解析模型对步骤g)获得的结果进行选择和组合获得句子的浅层语义领域行为。步骤d)中提到的语义不确定度表示方法。步骤d)中提到的语义分类树中节点语义概率表示方法。步骤d)中提到的语义分类树构造算法,(1)建立一个堆栈T保存当前所有可分节点指针;(2)训练语料中标记出来的A的所有相关词类加入question(A),含有待解析词A的所有句子作为根节点的语料集合K,根结点中记录K中A所有的语义及其概率,根结点表达式初始化为“<+>”,把根结点指针加入T;(3)如果T为空,所有节点不能再分,生成完整的语义分类树,结束算法;如果T不为空,取出最上面的节点指针,分别用question(A)中的每一个词类替换节点表达式,生成4M*n(n为节点表达式中符号“+”的数目)个问题;(4)根据公式(1)和(2)算出使得Δi最大的问题作为节点问题,如果节点为非叶子节点,执行步骤(5),否则,返回步骤(3);(5)建立节点的左右子节点,节点语料集合中所有句子分为两部分,符合节点问题的句子作为左子节点的语料集合,不符合节点问题的句子作为右子节点的语料集合,分别记录左右子节点语料集合中待解析词的语义及概率信息,将左右子节点指针加入T;(6)左子节点表达式设为左子树的父节点问题,右子节点表达式设为右子树的父节点表达式,返回步骤(3)。步骤d)中提到的统计解析模型。下面详细说明本专利技术技术方案中所涉及的各个细节问题。1.预处理装置预处理包括分词和词汇语义归类两部分,目的是获得句子对应的词类序列。本专利技术是针对特定领域的口语解析,所遇到的词汇量是十分有限的,我们采用了正向最大匹配方法来进行分词,其正确率可以满足系统的需要。词汇语义归类,就是把每个词汇归属到不同的语义类里面去,这类似于词性标注,不过此时标注的不是词性,而是词汇所属的语义类。语义的归类是按照词典进行。我们定义了一个语义类词典,该词典对特定领域内的词汇进行了语义分类。分类的原则是按照词汇在句子中的语义功能进行的,语义功能相同的词汇归为一类。比如“单人间”和“单人房”,它们的词义是相同的,其语义功能必然相同,所以这两个词汇属于一类。又比如“大”和“小”,它们的词义不同,但在句子中的语义功能基本是相同的,所以把它们归为一类。一个句子中的词汇经过语义归类后,就得到一个语义类序列。表1是旅馆预订领域的部分语义类。表1.语义类和语义类包含的词汇 2.标记装置标记采用人工的方法,主要包括两部分工作1)领域行为标记,就是把一个句子对应的领域行为标记出来。如句子“我想预订一个单人间”标记为“give-information+disposition+本文档来自技高网
...

【技术保护点】
一种基于语义分类树的汉语口语浅层语义解析装置的方法步骤为:    训练过程包括:    a)收集相关领域的口语语料;    b)对句子进行预处理;    c)标记句子的领域行为和关键词对应的语义以及关键词的语义相关词;    d)利用标记的语料构造语义分类树装置并获得统计解析模型装置的参数;    解析过程包括:    e)对句子进行预处理;    f)查找待解析句子中和领域行为密切相关的关键词语;    g)利用语义分类树获得每个关键词语的一种或多种语义以及各种语义的概率;    h)利用统计解析模型对步骤g)获得的结果进行选择和组合获得句子的浅层语义领域行为。

【技术特征摘要】

【专利技术属性】
技术研发人员:宗成庆左云存
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1