描述了用于汉语语音识别输入的用户消歧的计算机实现的方法。从用户接收用于自动语音识别的汉语语音输入。也从用户接收描述语音输入中的一个或多个字符的自发字符描述提示。然后基于字符描述提示来执行语音输入的自动语音识别以确定对应于语音输入的一个或多个汉语语言字符。
【技术实现步骤摘要】
【国外来华专利技术】【专利说明】在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符本申请要求通过引用被并入本文的2012年8月29日提交的美国临时专利申请61/694,450的优先权。
本专利技术涉及汉语中的自动语音识别,且具体地涉及基于自发用户字符描述提示的汉语字符的消歧。
技术介绍
自动语音识别(ASR)系统确定语音输入的语义意义。通常,输入语音被处理成一序列数字语音特征帧。每个语音特征帧可被考虑为代表在短的语音时间窗期间存在的语音信号的各种特征的多维矢量。例如,可从语音信号的短时傅立叶变换频谱的倒谱特征(MFCC)—一给定频带的短时功率或分量一一以及相应的第一和第二阶导数(“ δ ”和“ S-δ ”)得到每个语音帧的多维矢量。在连续识别系统中,可变数量的语音帧被组织为代表后面是停顿的一段时间的语音的“发音”,这在现实生活中不严谨地对应于说出的句子或短语。ASR系统比较多个输入语音帧以查找最好地匹配语音特征特性的统计模型,并接着确定与统计模型相关的相应的代表性文本或语义意义。现代统计模型是状态序列模型,例如使用高斯分布的混合来模仿语音声音(通常是音素)的隐马尔可夫模型(HMM)。这些统计模型常常代表被称为PEL(语音要素)的特定上下文中的音素,例如具有已知的左上下文和/或右上下文的三音子或音素。状态序列模型可按比例增加以将词表示为声音建模的音素的连接序列、或将短语或句子表示为词的连接序列。当统计模型被一起组织为词、短语和句子时,额外的语言相关的信息也一般合并到以语言建模的形式的模型中。与最佳匹配模型结构相关的词或短语被称为识别候选项或假设。系统可产生单个最佳识别候选项一一识别结果一一或被称为N最佳列表的几个假设的列表。在标题为“连续语音识别(Continuous Speech Recognit1n) ”的编号为5,794, 189的美国专利和标题为“语音识别语言模型(Speech Recognit1n Language Models) ” 的编号为 6,167,377 的美国专利中提供了关于连续语音识别的另外的细节,这两个专利的内容通过引用被并入本文。在语音识别中的完美准确性不能被实现,且在识别结果中的一些词将不可避免地需要校正。在例如驾驶的一些情况中,手操作是不可用的,且所有校正需要只通过话音命令来实现。对于西方语言,通常在单词级别上来完成识别校正(例如,通过再次说出正确的单词)。如果单词太模棱两可或由于其他原因难以识别,则用户可总是能够依靠拼读该单词来输入它。然而汉语词由不能被拼写的一个或多个音调字符组成,且语音识别引擎必须正确地识别期望字符。在汉语中的基本独立语音单位是字符,其像在西方语言中的单词所起的作用一样在句子中起重要的作用。当输入不能被语言模型和统计频率引导的名字、地址、专有名词和商标时,准确的字符输入是十分重要的。而且,通过话音或拼音的字符输入很难,因为很多字符共用相同的发音。例如,如图1所示,字符“李”与248个其它字符共用“Li”的发音。因此非常难以在不告知上下文的情况下准确地口述记录或识别单个汉语字符。讲汉语的人已经接受了描述和弄清楚在日常对话中的给定字符的方式:?通过使用在示例词、短语或专有名词(例如著名人士的名字、品牌或广告)中的字符?通过说出期望字符的一个或多个偏旁部分?通过说出期望字符的一个或多个结构要素.通过提供期望字符的音调描述信息概述本专利技术的实施方式目的在于用于基于自发字符描述提示的汉语语音识别输入的用户消歧的计算机实现的布置。从用户接收用于自动语音识别的汉语语音输入。也从用户接收描述在语音输入中的一个或多个字符的自发字符描述提示。然后基于字符描述提示来执行语音输入的自动语音识别以确定对应于语音输入的一个或多个汉语语言字符。可在命令模式约束格式输入中从用户或在无约束自然语音输入中从用户传送字符描述提示。字符描述提示也可包括音调描述、字符动作和/或字符位置信息。字符描述提示可包括使用所描述的字符的示例词、或所描述字符的一个或多个偏旁成分的描述、或所描述的字符的一个或多个字符结构要素的描述。自动语音识别可使用用于操纵字符描述提示的识别语法和/或模糊匹配口述记录引擎。附图的简要说明图1是示出具有“Li”的基本发音的很多不同的汉语字符中的部分汉语字符的表格。图2A-2C示出根据本专利技术的实施方式的使用字符描述提示的汉语语音识别输入的消歧的例子。图3A-3B示出基于示例词的字符描述提示的另一例子。图4A-4B示出说明使用基于描述性偏旁部分的字符描述提示的另一例子的例子。图5A-5B示出说明使用基于音调描述的字符描述提示的另一例子的例子。图6示出用于本专利技术的实施方式的基于语法的语音识别体系结构的例子。图7示出用于本专利技术的实施方式的模糊匹配口述记录引擎语音识别体系结构的例子。详细描述本专利技术的各种实施方式目的在于基于自发字符描述提示的汉语语音识别的消歧。使用用于字符消歧的自发字符描述提示与在日常生活中的讲汉语的人的现有自然说话习惯很好地匹配。在讲汉语的人的日常生活中,人们有各种不同的机制,他们通过这些机制从具有类似发音的很多候选项指定一个特定的字符。一个这样的方式是描述字符的结构要素。例如,图2A-2C示出使用描述字符的结构要素的字符描述提示的汉语语音识别输入的消歧的例子。图2A示出从用户到用于自动语音识别的系统的汉语语音输入201。如图2B所示,用户还提供自发字符描述提示202,其通过语音输入“木子Li”描述第一字符的结构要素。系统然后基于字符描述提示202执行语音输入201的自动语音识别以确定对应于语音输入201 (在这种情况下是向用户显示为如图2C所示的识别输出203的字符“李”)的一个或多个汉语语言字符。讲汉语的人使说出的字符消除歧义的另一常见方式是通过说出包含目标字符的流行词来讲述上下文。例如,如果说话者简单地说“Wei”,则人们将不知道哪个字符是预期的,因为有太多的字共用“Wei”的发音,例如“威”、“巍”、“危”、“微”等。但是如图3A所示,说话者可提供字符描述提示302 “巍蛾的巍”,意指如在常用词“巍蛾”(意指高耸的词)中的字符“巍”,从而排除其它候选字符。与单个字符“巍”比较,常用词“巍蛾”更明确且容易识别。这非常类似于在英语中说“one two three”中的“two,,、或“me too”中的“too”。系统然后基于字符描述提示302执行自动语音识别以确定语音输入301对应于向用户显示为如图3B所示的识别输出303的字符“巍”。字符描述提示可包括所描述的字符的一个或多个偏旁部分的描述。例如,“山字头的巍”意指具有“山”的偏旁部分的“巍”。通过如此解释,听者可非常快地确定这个字符,因为只有“巍”具有这个偏旁部分且发音为“Wei”。这有点像在英语中的拼读:“T,W,0,two”或“T,double O, too "ο在如图4Α所示的另一例子中,说话者给出“Xu”的语音输入401和“具有偏旁4的Xu”的字符描述提示402,且系统然后基于字符描述提示402执行自动语音识别以确定语音输入401对应于字符“徐”,其如图4B所示向用户显示为识别输出403。在一些实施方式中,字符描述提示也可包括所描述的字符的音调描述信息。例如,如图5A所示,说话者可给出“2声的L本文档来自技高网...
【技术保护点】
一种使用至少一个硬件实现的计算机处理器用于汉语语音识别输入的用户消歧的计算机实现的方法,所述方法包括:从用户接收汉语语音输入用于自动语音识别;从所述用户接收描述在所述语音输入中的一个或多个字符的自发字符描述提示;以及基于字符描述提示,使用所述语音输入的自动语音识别来确定对应于所述语音输入的一个或多个汉语语言字符。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:李伟,徐然,任晓琳,
申请(专利权)人:纽昂斯通讯公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。