建立基于语法模型的语义分析器的方法技术

技术编号:3046479 阅读:232 留言:0更新日期:2012-04-11 18:40
一种智能信息处理技术领域的建立基于语法模型的语义分析器的方法,利用电话拨号系统的高层语义信息,建立语法模型,并把这种语法模型应用于语义分析,自动切分拼音流,将拼音汉字转换和语义分析有机结合起来,包括语法模型的建立、语义分析算法两个方面。本发明专利技术提出了一种利用语法模型中的高层语义信息来切分拼音流的方法,这是一种可以排除歧义切分语句的语义分析器。该分析器对语法规则内的句子和超出语法规则的句子,都能很好地分析出语义信息。

【技术实现步骤摘要】

本专利技术是一种涉及智能信息处理
的建立语义分析器的方法,具体涉及一种。
技术介绍
典型的对话系统由语音识别、自然语言理解、对话管理、自然语言生成、语音合成等模块组成。自然语言理解模块的研究由来已久,目前研究主流为用基于规则的语言理解方法来实现,即根据已有的文法进行句法语义分析,其基础是形式语言理论。常见的自然语言理解模块主要用上下文无关文法CFG(Context Free Grammar)描述和分析处理书面语。口语与书面语相比有其特点句式较简单,句法结构较随意,常伴有多种口语语言现象(重复、修正、指代、省略等)。而汉语口语与英语口语相比,句式更灵活,语序更随意。传统的CFG文法很难有效地表示汉语口语地诸多现象。而涉及到语音的口语对话系统还包括噪音、含混不清、口头语、吃音、音变等等口语语音现,所以口语对话是自然语言理解技术实现的难点,但是也是应用系统适用性的关键点。口语中,人们的语言很随意,可以省略、更正、倒叙等等,这些口语现象是传统的单单基于词法分析的理解系统所难以解决的,而引入基于关键语义的技术却可以很好地解决。由于以上种种因素,完全基于语法规则的CFG的语音识别器是脆弱的,经文献检索发现,Hacioglu,K等人在《Acoustics,Speech and Signal Processing,2001 IEEE》Volume1,2001 Page(s)537-540vol.1上发表的“Dialog-context dependent language modeling combining n-grams andstochastic context-free grammars Acoustics,Speech,and SignalProcessing,2001.Proceedings(《IEEE声学、语音与信号处理》,“结合N元文法和上下文无关文法的基于对话系统的语言模型”),文中提出语音识别器要同时利用二元文法(bigram)语言模型和上下文无关文法(CFG)。由于从N元文法(N-gram)语言模型得不到语义信息,一种解决方法是利用语言模型来选取得分最高的最优路径。但是对于特定领域(如天气、航班、住宿、交通、旅游、机票、火车票订购等等)的应用系统来说,这样的方法不是最优的,因为没有充分利用这些领域中的高层语义信息。
技术实现思路
本专利技术的目的在于针对现有技术的不足,主要针对语音拨号的电话自动转接系统,提出一种,使得语音识别后的拼音汉字得以转换,并且保证转换方法达到最优。本专利技术通过以下技术方案实现的,本专利技术充分利用了电话拨号系统的高层语义信息,建立语法模型,并把这种语法模型应用于语义分析,自动切分拼音流,将拼音汉字转换和语义分析有机结合起来,包括语法模型的建立、语义分析算法两个方面(1)所述的语法模型,是一个带有权重的概念转移网络,表示着概念和概念间的转移,整个语法由一层一层的语法规则组成,表示了电话拨号系统的高层语义信息,构成了bigram的语义概念转移网络BSCTN。概念间的转移由语法模型中的语法规则来规定。语法模型中的每一个概念称为“语法概念”,每一个语法概念对应于各层中语法属性。这样构建起来的语法,表示灵活,概念清晰,实现简单。(2)所述的语义分析算法,主要是应用于“拨号系统”中的三个排歧规则排歧规则一根据语法模型BSCTN,运用宽松的语法规则(loose grammar)G0,对整句进行分析,排除不符合语法规则的句子。“宽松”的语法规则定义为允许每一个语法概念后接超出词典和超出语法规则的词,定义这些词的语法属性为-1,并且可转移到子语法层中的其它所有的语法概念中去。S*=YSi∈G0Si]]>Si为根据宽松的语法规则G0进行切分的第i条可能的路径,S*为所有切分路径中最优的切分路径。使用宽松的语法规则是为了灵活地分析超出语法规则的句子。用‘0’、‘1’来表示每条路径的生死状态,‘0’表示‘死’,‘1’表示‘生’。应用排歧规则一后,若所有的切分路径的状态都为‘0’,说明该句子不符合语法规则。则把所有路径的状态由‘0’改为‘1’,继续应用规则二、三来排歧。例如请qing语气词->拨bo拨->拨bo拨->五wu数字->四si数字由于语法规则中不允许概念‘拨’转移到‘拨’,所以按照语法规则G0,所有切分路径的状态都为‘0’,可见该句不符合语法规则。为了利用排歧规则,提取相关的语义信息,把所有切分路径的状态改为‘1’,再应用下面的规则排歧。排歧规则二最长匹配原则。把含有最少语法概念(最少的拼音词)的切分路径的状态令为‘1’,其余路径的状态令为‘0’。通过计算语法分数,选取语法分数最低的路径为最优路径。S*=argminsscore(s)=argminsscore(ph1Kphn)=argminsΣi=1nscore(phi)]]>S为切分得到的路径,score(s)用来求出该路径的语法分数,score(phi)求出当前节点的语法分数。若拼音词的语法属性为-1,则语法分数为10,否则语法分数为1。10和1相差了一个数量级,足以把路径的好坏区分出来。实验证明,应用规则二可快速排除大量的歧义路径。排歧规则三符合语法规则的句子经过上述排歧处理后,得到了最优解释,但是若语句中含有超出词典或超出语法规则的词,则可能还存在着多条切分路径,要进行更进一步的分析。严格的语法规则G1定义为语法属性为-1的概念被排除在外,不允许其转移到其它概念。分析每一个状态为‘1’的切分路径,跳过语法属性为-1的词,省去重复的相同语法属性的拼音词(连续的相同的语法属性的词只取一个)。根据严格的语法规则G1计算语法分数。然后选取得分最低的路径为最优路径。S*=argminG1score(s)=argminG1Σi=1nscore(phi|phi-1,Kph1,ph0)]]>S为切分得到的路径,score(s)求出该路径的语法分数,score(phi|phi-1,K,ph1,ph0)求出从前一段历史节点转移到当前节点的语法分数。若该转移符合语法规则G1,则语法分数为1,否则语法分数为10。10和1相差了一个数量级,足以把路径的好坏区分出来。以下对本专利技术方法作进一步的说明,步骤如下1、根据电话拨号系统的句法特点,建立拨号系统的“语法概念”;2、由“语法概念”,建立包含拨号系统的高层语义信息的语法规则。3、根据语法规则和“语法概念”,建立分层语法模型。(1)第一层为总语法层(grammar-all),控制着系统在大的语义方面的转移。(2)第二层为主语法(grammar),控制着总语法层中的概念间的转移。(3)第三层为子语法(sub-grammar),规定了在主语法层中定义的语法概念的构成。(4)第四层为词层(phrases),对应于子语法层中概念的具体词的集合,同一集合中的词具有相同的语义信息。(5)第五层为字(character)层,表示着字如何组成词。(6)第六层为音节(syllable)层,每一个带调的音节表示为声、韵母结构(initial-final),这些识别单元(initial本文档来自技高网
...

【技术保护点】
一种建立基于语法模型的语义分析器的方法,其特征在于,利用电话拨号系统的高层语义信息,建立语法模型,并把这种语法模型应用于语义分析,自动切分拼音流,将拼音汉字转换和语义分析有机结合起来,包括语法模型的建立、语义分析算法两个方面:(1)所述的语法模型,是一个带有权重的概念转移网络,表示着概念和概念间的转移,整个语法由一层一层的语法规则组成,表示了电话拨号系统的高层语义信息,构成了二元的语义概念转移网络BSCTN,概念间的转移由语法模型中的语法规则来规定,语法模型中的每一个概念称为“语法概念”,每一个语法概念对应于各层中语法属性;(2)所述的语义分析算法,主要是应用于“拨号系统”中的三个排歧规则:排歧规则一:根据语法模型BSCTN,运用宽松的语法规则G0,对整句进行分析,排除违反语法规则的句子;排歧规则二:最长匹配原则,把含有最少语法概念的切分路径的状态令为‘1’,其余路径的状态令为‘0’,通过计算语法分数,选取语法分数最低的路径为最优路径;排歧规则三:符合语法规则的句子经过上述排歧处理后,得到了最优解释,但是若语句中含有超出词典或超出语法规则的词,则可能还存在着多条切分路径,要用手工分析进行判断。...

【技术特征摘要】
1.一种建立基于语法模型的语义分析器的方法,其特征在于,利用电话拨号系统的高层语义信息,建立语法模型,并把这种语法模型应用于语义分析,自动切分拼音流,将拼音汉字转换和语义分析有机结合起来,包括语法模型的建立、语义分析算法两个方面(1)所述的语法模型,是一个带有权重的概念转移网络,表示着概念和概念间的转移,整个语法由一层一层的语法规则组成,表示了电话拨号系统的高层语义信息,构成了二元的语义概念转移网络BSCTN,概念间的转移由语法模型中的语法规则来规定,语法模型中的每一个概念称为“语法概念”,每一个语法概念对应于各层中语法属性;(2)所述的语义分析算法,主要是应用于“拨号系统”中的三个排歧规则排歧规则一根据语法模型BSCTN,运用宽松的语法规则G0,对整句进行分析,排除违反语法规则的句子;排歧规则二最长匹配原则,把含有最少语法概念的切分路径的状态令为‘1’,其余路径的状态令为‘0’,通过计算语法分数,选取语法分数最低的路径为最优路径;排歧规则三符合语法规则的句子经过上述排歧处理后,得到了最优解释,但是若语句中含有超出词典或超出语法规则的词,则可能还存在着多条切分路径,要用手工分析进行判断。2.根据权利要求1所述的建立基于语法模型的语义分析器的方法,其特征是,所述的宽松的语法规则,定义为允许每一个语法概念后接超出词典和超出语法规则的词,定义这些词的语法属性为-1,并且能转移到子语法层中的其它所有的语法概念中去。3.根据权利要求1所述的建立基于语法模型的语义分析器的方法,其特征是,以下通过步骤对其作进一步的限定(1)根据电话拨号系统的句法特点,建立拨号系统的“语法概念”;(2)由“语法概念”建立包含电话拨号系统的高层...

【专利技术属性】
技术研发人员:朱杰熊英
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利