本发明专利技术提供了评价讲话者的一个或多个口语能力的技术。该技术包括:标识讲话者所讲的语段中的一个或多个感兴趣时间位置;计算一个或多个声学参数,其中所述一个或多个声学参数捕获所述一个或多个感兴趣时间位置的一个或多个声学-语音学特征的一个或多个特性;以及将所述一个或多个声学参数与自动语音识别器的输出相结合,以修改口语语言能力评价的输出。
【技术实现步骤摘要】
本专利技术的实施例一般涉及信息技术,具体涉及语音识别。
技术介绍
评价口语语法能力是评价考生或个人的总体英语口语能力的主要组成部分。此 外,人们对学习和提高英语口语能力的兴趣的骤增,外加因特网的日益普及激起了对计算 机辅助语言学习(CALL,computerassisted language learning)领域的兴趣。大多数现有 CALL系统的方法关注发音和/或音节重音的评价。然而,这样的方法不关注口语语法评价。 另外,现有CALL系统的评价由评估人员作出,导致主观、缺乏可衡量性、和较高成本等。 在传统方法中,为了评价口语语法能力,要请考生针对给定话题讲一段话,然后由 评估人员根据考生犯的语法错误的类型和频率来评价考生。然而,这样的方法难以实现自 动口语语法评价,因为当前自动语音识别(ASR,automatic speech recognition)系统的准 确性对于即兴自由演讲来说相对较低。并且,在ASR中起重要作用的语言模型(LM)显著降 低了识别语法不正确的句子的概率。 在现有自动方法中,向考生播放可能含有语法错误的提示。期待考生检测任何语 法错误,并且记录相应语法正确的句子,然后让ASR系统利用包括一组预选句子的LM来解 码该相应语法正确的句子。然而,这样的方法仍然可能引起识别错误。例如,当LM中的 两个(或更多个)句子在声学上彼此相近时(例如,"he kill a snake"与"hekilled a snake"),这样的方法会出错。在这种情况下,很有可能识别成与实际讲的那句不同的句子。 此外,在这样的方法中,当考生讲了一句未存在于LM之中的句子,而ASR却很有把 握地将它识别成存在于LM中的句子之一时,会出现问题。当所讲的句子与存在于LM中的 句子之一在声学上相似时,就可能发生这种情况。
技术实现思路
本专利技术的原理和实施例提供了用于评价口语能力的技术。按照本专利技术的一个方 面,用于评价讲话者的一个或多个口语语言能力的示例性方法(可由计算机实施)包括如 下步骤标识讲话者所讲的语段中的一个或多个感兴趣时间位置;计算一个或多个声学参 数,其中所述一个或多个声学参数捕获所述一个或多个感兴趣时间位置的一个或多个声 学_语音学特征的一个或多个特性;并且将所述一个或多个声学参数与自动语音识别器的 输出相结合,以修改口语语言能力评价的输出。 本专利技术的一个或多个实施例或其中的要素可以以包括计算机可用媒体的计算机 产品的形式实现,所述计算机可用媒体含有用于执行所示的方法步骤的计算机可用程序代 码。此外,本专利技术的一个或多个实施例或其中的要素能够以包括存储器和与所述存储器耦 合并用于执行示例性方法步骤的至少一个处理器的装置或系统的形式实现。更进一步,在 另一个方面中,本专利技术的一个或多个实施例或其中的要素能够以执行本文所述的一个或多 个方法步骤的装置的形式实现;所述装置包括硬件模块、软件模块、或硬件模块和软件模块的组合。 通过结合附图对本专利技术的示例性实施例进行如下详细描述,本专利技术的这些和其它 目的、特征和优点将显而易见。附图说明 图1是示例按照本专利技术实施例的口语语法评价策略的图; 图2是示例按照本专利技术实施例的示例性声谱图的图; 图3是示例按照本专利技术实施例的用于不同语音类别的不同声学参数的区域边界 的估计的图; 图4是示例按照本专利技术实施例的用于评价讲话者的一个或多个口语语言能力的 技术的流程图;禾口 图5是能够实现本专利技术的至少一个实施例的示例性计算机系统的系统图。 具体实施例方式本专利技术的原理包括将声学-语音学与自动语音识别(ASR)系统相结合,以评价口语语言能力(例如,英语口语能力)。本专利技术的一个或多个实施例通过检测无约束连续语音中的语法不正确结构来自动评价英语口语能力。本文所述的技术能够通过关注声学相异的时间位置和从一组声学相似选项中标识所讲话语,来提高ASR系统的性能。 正如本文详述的那样,本专利技术的一个或多个实施例包括计算捕获相异的声学-语音学特征的显著特性的声学参数。此外,还能够将有关从声学参数中获得的语音区的声学特性的信息与从标准语音识别系统中获得的声学特性相结合。 与上面详述的现有方法的缺点相反,本专利技术的一个或多个实施例将声学-语音学 参数用于对来自语音识别器的输出的后处理步骤,以及计算新颖的声学参数(本文称之为 "发生相干性(onset coherence)")以进行摩擦音、闭塞音和元音之间的三路区分。另外, 本文所述的技术可以根据预期语音特性来改变物理语音信号的分析(也就是说,声学参数 的计算),并且使用来自ASR的时间对准信息进行进一步分析以便提高识别准确性。并且, 本专利技术的一个或多个实施例包括将ASR的输出与从声学参数中获得的语音特性相结合来 确定最终输出,并且将其应用于口语语法评价和发音评价。 如本文所述,当基础语言模型(LM, language model)包括声学相似选项时,本专利技术 的一个或多个实施例可以用于,例如,评价讲话者的发音能力,检测所讲话语中的语法不正 确(GI, grammaticallyincorrect)结构,和提高自动语音识别(ARS)系统的性能等。另外, 本文所述的技术可以用在关注评估口语语言能力和提供口语语言能力反馈的应用中。 如本文所述,本专利技术的一个或多个实施例专注于感兴趣的可能时间区域,并分析 它们的语音成分。用于评价发音能力的感兴趣时间区域可以是与一组预定冲击音(例如,/ zh/,/s/等)相对应的区域。其它情况的感兴趣时间区域可以是,例如,声学相异明显的区 域。本专利技术的一个或多个实施例所使用的该组声学参数和分析策略可以视预期语音成分和 预期声学相异而定。本文所述的技术也可以实现用于言语残疾人士的语音概况描述。 如本文所述,本专利技术的一个或多个实施例包括将声学-语音学的知识与统计ASR 系统相结合来评价英语口语能力的各个方面。在本专利技术的一个示范性实施例中,该技术包括两个阶段。在第一阶段中,使用带有特定域LM的标准ASR系统来获取音素层面和词汇层 面假设以及相应时间对准。第二阶段中的分析视感兴趣的应用而定。 举例来说,考虑竞争选项在声学上相似的情形。可以根据竞争选项事先标识需 要消除歧义的语音区域和竞争者的语音类别。例如,如果选项是"he kill a snake", "he kills a snake",或"he killed a snake",则需要消除歧义的语音区域是词的尾部 "kill(s) (ed)",而竞争类别是响辅音、摩擦辅音与闭塞辅音。语音信号中与这个感兴趣音 素成分相对应的实际时间区域能够从在较早阶段中获取的对准中估计。允许一定的时间容 限来解决对准的潜在不准确性。 从语音信号中计算声学参数(AP, acoustic parameter),所述声学参数(AP)捕获竞争的各种语音成分的显著特性,并因此能够以一定的稳健性来标识实际存在的语音成分。此外,请注意,计算的该组AP可以根据需要消除歧义的语音成分而改变。例如,用于区分摩擦音与爆破音的AP可以与用于区分一个摩擦音与另一个摩擦音的AP不同。 本专利技术的一个或多个实施例包括用于进行摩擦音、闭塞音和元音之间的三路区分的AP。这些AP所假设的数值的范围也是相应音素的清晰度等级的指示本文档来自技高网...
【技术保护点】
一种用于评价讲话者的一个或多个口语语言能力的方法,包含如下步骤:标识讲话者所讲的语段中的一个或多个感兴趣时间位置;计算一个或多个声学参数,其中所述一个或多个声学参数捕获所述一个或多个感兴趣时间位置的一个或多个声学-语音学特征的一个或多个特性;以及将所述一个或多个声学参数与自动语音识别器的输出相结合,以修改口语语言能力评价的输出。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:OD德什姆克,A维尔马,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。