本发明专利技术包括有效地实施语音识别字典的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇词典的音素串进行比较的识别器。该优化的普通话汉语音素集可以通过利用音位变体和音位变化技术有效地实施。此外,前述的词汇字典可以通过利用统一的字典优化技术实施以提供稳健且精确的语音识别。此外,词汇字典可以实施为优化的字典以在语音识别过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。
【技术实现步骤摘要】
一般地说本专利技术涉及电子语音识别系统,更具体地说涉及有效地实施普通话汉语 (Mandarin Chinese)语音识别字典的系统和方法。
技术介绍
描述实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们 非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如, 语音控制操作允许用户同时执行其它的任务。例如,一个人在驾驶机车的同时,通过语音控 制可以操作电子管理器。对于那些具有身体障碍或其它特殊要求的用户来说电子系统的免 提操作是比较理想的。电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系 统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子 设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说 话而与其交互。然而,有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如,增加系 统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于 增加了生产成本和操作的无效率,在处理或硬件要求方面的增加也相应地导致了不利的影 响。此外,增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优 点,但也导致了对各种系统部件的控制和管理的增加。例如,有效地识别在普通话汉语语言 中的字和词的增强的电子系统得益于有效的实施方案,因为要求大量且复杂的数字数据。 因此,对于所有的前述原因,实施系统用户与电子设备人机通信的稳健且有效的方法一直 是系统设计者和制造者重要的考虑因素。
技术实现思路
根据本专利技术,公开了一种有效地实施普通话汉语语音识别字典的系统和方法。在 一个实施例中,识别器可以被构造成将输入语音数据与来自根据优化的普通话汉语音素集 实施的词汇词典的音素串进行比较。优化的普通话汉语音素集可以以语音学技术实施以单独包括辅音音素和元音音 素。由于系统效率的缘故,优化的普通话汉语音素集优选以小型化的方式实施以仅包括在 语音识别过程中精确地表示普通话汉语语音所要求的最小数量的辅音音素和元音音素。根据本专利技术的某些实施例,通过利用将多个音位变体(allophone)或发音变 化映射到优化的音素集中的相同对应音位的音位变体变化技术(allophone variation technique)可以有效地实施优化的普通话汉语音素集。在某些实施例中,音位变体变化技术可以将音位变体映射到包括辅音类别、半元音类别和元音类别的音素集中。此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且 精确的语音识别。区域变化(regional variation)技术可以将输入语音数据的区域变化 映射到在词汇字典中的统一的对应条目,由此改善语音识别精度。输入语音数据的每个区 域变化根据地理区域的不同具有重要的发音变化。在某些实施例中,发音的区域变化包括 北方普通话汉语和南方普通话汉语的普通话汉语发音变化。此外,在某些实施例中,前述的词汇字典可以实施为对应于特定的口语语言的不 同的具体的区域发音变化的统一的字典。然后在语音识别过程中该字典可以精确地识别北 方普通话汉语语音或南方普通话汉语语音。因此本专利技术提供了 一种有效地实施普通话汉语 语音识别字典的系统和方法。附图说明附图1所示为根据本专利技术的计算机系统的一个实施例的方块图;附图2所示为根据本专利技术附图1的存储器的一个实施例的方块图;附图3所示为根据本专利技术附图2的语音检测器的一个实施例的方块图;附图4所示为根据本专利技术附图2的隐马尔可夫模型(Hidden Markov Model)的一 个实施例的附图;附图5所示为根据本专利技术附图2的字典的一个实施例的附图;附图6所示为根据本专利技术的一个实施例附图5的字典条目的附图;和附图7所示为根据本专利技术的一个实施例说明区域变化技术的附图。具体实施例方式本专利技术涉及语音识别系统的改进。提供下面的描述以便在本领域的普通技术人员 能够实现并使用本专利技术,并且这些描述根据专利申请及其要求提供。对优选实施例做出各 种改进对于本领域普通技术人员来说是显而易见的,因此在此的一般原理可应用于其它的 实施例。因此并不希望将本专利技术限于所示的实施例,而是应该给予与在此所描述的原理和 特征相一致的最宽泛的范围。本专利技术包括有效地实施普通话汉语语音识别字典的系统和方法,可以包括被构造 成将输入语音数据与来自根据优化的普通话汉语音素集实施的词汇字典的音素串进行比 较的识别器。优化的普通话汉语音素集可以通过利用音位变体变化技术有效地实施。此外,通过利用各种不同的字典优化技术可以实施前述的词汇字典以提供稳健且 精确的语音识别。此外,可以将该词汇字典实施为字典集,从该字典集中可以选择适当的字 典以在语音识别的过程中精确地识别北方普通话汉语语音或南方普通话汉语语音。现在参考附图1,所示为根据本专利技术的计算机系统110的一个实施例的方块图。 附图1的实施例包括声音传感器112、放大器116、模拟至数字转换器120、中央处理单元 (CPU) 128、存储器130和输入/输出接口 132。在变型实施例中,除了结合附图1的实施例 讨论的那些元件或功能之外或作为它们的替换,计算机系统110容易包括各种其它的元件 或功能。声音传感器112检测声音能量并将所检测到的声音能量转换为模拟语音信号,通过线114将该模拟语音信号提供给放大器116。放大器116放大所接收的模拟语音信号并 经线118将经放大的模拟语音信号提供给模拟至数字转换器120。然后模拟至数字转换器 120将经放大的模拟语音信号转换为对应的数字语音数据。然后模拟至数字转换器120通 过线122将数字语音数据提供给系统总线124。CPU 128然后访问在系统总线124上的数字语音数据并根据包含在存储器130中 的软件指令响应地分析并处理该数字语音数据以执行语音检测。CPU 128的操作和在存储 器130中的软件指令将在下文结合附图2-3进一步讨论。在处理了语音数据之后,CPU 128 然后将语音检测分析的结果通过输入/输出接口 132提供给其它的设备(未示)。在变型 实施例中,本专利技术容易以除了在附图1中所示的计算机系统110之外的各种设备实施。现在参考附图2,所示为根据本专利技术的附图1的存储器130的一个实施例的方块 图。可替换的是,存储器130可以包括各种存储装置结构,包括随机存取存储器(RAM)和存 储装置比如软盘或硬盘驱动器。在附图2的实施例中,存储器130包括但不限于语音识别 引擎210、隐马尔可夫模型(HMM)212、词汇字典214和语言模型216。在变型实施例中,除了 结合附图2的实施例讨论的那些元件或功能之外或作为它们的替换,存储器130容易包括 各种其它的元件或功能。在附图2的实施例中,语音识别引擎210包括由CPU 128执行以分析并识别语音 数据的一系列软件模块,下文将参考附图3进一步描述这些模块。在变型实施例中,语音识 别引擎210容易以各种其它的软件和/或软件结构实施。HMM 212和字典214可以由语音 识别引擎210使用以实施本专利技术的语音识别功能。HMM 212的一种实施例将在下文结合附 图4进一步讨论,字典214的一种实施例将在下文结合附图5进一步讨论。现在参考附图3,所示根据本本文档来自技高网...
【技术保护点】
一种用于执行语音识别过程的系统,包括:识别器,该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较,所述优化的音素集利用音位变体变化技术以小型化的方式来实施,所述词汇字典利用一种或多种字典优化技术来实施;和处理器,该处理器被构造成控制所述识别器,以便由此执行所述语音识别过程;其中所述优化的音素集表示音调语言的各种不同的声音而不利用作为在所述优化的音素集中的不同音素部分的对应音调信息。
【技术特征摘要】
US 2003-3-31 10/403747一种用于执行语音识别过程的系统,包括识别器,该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较,所述优化的音素集利用音位变体变化技术以小型化的方式来实施,所述词汇字典利用一种或多种字典优化技术来实施;和处理器,该处理器被构造成控制所述识别器,以便由此执行所述语音识别过程;其中所述优化的音素集表示音调语言的各种不同的声音而不利用作为在所述优化的音素集中的不同音素部分的对应音调信息。2.权利要求1的系统,其中所述识别器和所述处理器作为消费电子设备的部分来实施。3.权利要求1的系统,其中在执行所述语音识别过程的同时,所述优化的音素集节省 处理资源和存储器资源。4.权利要求1的系统,其中每个所述音素串包括来自所述优化的音素集的不同的音素 序列,每个所述音素串对应于来自所述词汇字典的不同的字。5.权利要求4的系统,其中所述识别器比较所述输入语音数据和来自所述词汇字典的 所述音素串的隐式马尔可夫模型,以便由此在所述语音识别过程期间选择所识别的字。6.权利要求1的系统,其中所述音位变体变化技术将多个音位变体或音位映射到对应 的字典条目。7.权利要求6的系统,其中所述多个音位变体或音位包括所述字典条目的发音变化。8.权利要求6的系统,其中所述优化的音素集以语音学技术来实施,以便单独提供辅 音音素和元音音素,所述优化的音素集以小型化的方式来实施,以便仅包括最低要求数量 的所述辅音音素和所述元音音素。9.权利要求1的系统,其中区域变化技术将所述输入语音数据的区域变化映射到所述 词汇字典中的对应的条目。10.权利要求9的系统,其中所述输入语音数据的每个所述区域变化根据地理区域而 呈现明显的发音变化,所述明显的发音变化被确定超过预先确定的可接受的变化阈值。11.权利要求1的系统,其中所述词汇字典包括且合并具有不应归于区域变化的可替 换发音的自由音位或音位变体变化的单独条目。12.一种用于执行语音识别过程的方法,包括如下的步骤将识别器构造成比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素 串,所述优化的音素集利用音位的和音位变体的变化技术以小...
【专利技术属性】
技术研发人员:X梅嫩德斯皮达尔,吕静雯,L奥罗伦肖,段镭,
申请(专利权)人:索尼电子有限公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。