基于语义场景的语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38811583 阅读:16 留言:0更新日期:2023-09-15 19:50
本发明专利技术涉及一种基于语义场景的语音识别方法、装置、设备及存储介质,涉及互联网技术领域,该方法包括以下步骤:通过采集获取待识别语音数据,并加载语义场景识别模式;将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得待识别语音数据的语音特征;基于语音特征与加载的语义场景识别模式进行比对,获得语音特征对应的预存语义场景模式,并将预存语义场景模式作为待识别语音数据的目标语义场景模式;基于目标语义场景模式对待识别语音数据的语音特征执行校验操作,根据校验结果以更新语音特征的识别结果。本发明专利技术可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。输入的语音数据对应的语义。输入的语音数据对应的语义。

【技术实现步骤摘要】
基于语义场景的语音识别方法、装置、设备及存储介质


[0001]本专利技术涉及语音处理
,特别是涉及一种基于语义场景的语音识别方法、装置、设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断发展和研究,语音识别已实现对自然语言的识别和理解,能够将接收到的语音转换成文字,为语音识别技术方面的快速发展奠定了基础。
[0003]但是,现有的语音输入通过录取用户语音数据并根据语音识别算法识别输出结果,并未结合用户所处的不同方言等差异性影响因素,对于各地人群的普通话都有不同的特征的情形,容易受方言的影响,无法根据不同地区的人群说话的语速、语音、语义进行差异性的识别,导致现有的语音识别无法适用于更多语义场景,从而,导致基于语义场景的语音识别的准确率往往不高。

技术实现思路

[0004]本申请实施例提供一种基于语义场景的语音识别方法、装置、设备及存储介质,可以提高语义场景下语音识别的准确率。
[0005]为实现上述目的,本专利技术提供了以下技术方案:第一方面,本申请实施例提供了一种基于语义场景的语音识别方法,包括:采集获取待识别语音数据,并加载语义场景识别模式;将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得所述待识别语音数据的语音特征,其中,所述语音特征包括声调特征、复合音特征、辅音特征、元音特征以及音素特征;基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对,获得所述语音特征对应的预存语义场景模式,并将所述预存语义场景模式作为所述待识别语音数据的目标语义场景模式;基于所述目标语义场景模式对所述待识别语音数据的语音特征执行校验操作,根据校验结果以更新所述语音特征的识别结果。
[0006]第二方面,本申请实施例还提供了一种基于语义场景的语音识别装置,该装置包括:语音获取模块,用于采集获取待识别语音数据,并加载语义场景识别模式;语音特征识别模块,用于将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得所述待识别语音数据的语音特征,其中,所述语音特征包括声调特征、复合音特征、辅音特征、元音特征以及音素特征;语义场景模式确定模块,用于基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对,获得所述语音特征对应的预存语义场景模式,并将所述预存语义场景模式作为所述待识别语音数据的目标语义场
景模式;以及语音识别更新模块,用于基于所述目标语义场景模式对所述待识别语音数据的语音特征执行校验操作,根据校验结果以更新所述语音特征的识别结果。
[0007]第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述基于语义场景的语音识别方法的步骤。
[0008]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于语义场景的语音识别方法的步骤。
[0009]本专利技术实施例提供的技术方案可以包括以下有益效果:本申请实施例提供一种基于语义场景的语音识别方案,通过采集获取待识别语音数据,并加载语义场景识别模式;将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得所述待识别语音数据的语音特征;基于所述语音特征与加载的语义场景识别模式进行比对,获得所述语音特征对应的预存语义场景模式,并将所述预存语义场景模式作为所述待识别语音数据的目标语义场景模式;基于所述目标语义场景模式对所述待识别语音数据的语音特征执行校验操作,根据校验结果以更新所述语音特征的识别结果。采用上述技术方案,通过语音特征识别以及考虑语义场景模式因素,准确确定目标语义场景模式,以使在不同语义场景模式下准确识别用户的语音的真实含义的能力,避免因所处不同方言等差异性影响因素而无法准确理解自然语言对应的含义而导致基于语义场景的语音识别的准确率较低的问题发生,可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。
[0010]本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。在附图中:图1示意性示出本专利技术示例性实施例中一种基于语义场景的语音识别方法的流程图;图2示意性示出本专利技术示例性实施例中一种基于语义场景的语音识别方法中获得语音特征的流程图;图3示意性示出本专利技术示例性实施例中一种基于语义场景的语音识别方法中语音声学特征提取的流程图;图4为本专利技术基于语义场景的语音识别装置的结构框图;图5为本专利技术一个实施例中一种计算机设备的硬件架构图。
[0012]本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0013]下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不
相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
[0014]应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0015]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0016]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0017]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0018]相关技术中,基于语义场景的语音识别的主要方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。然而,由于自然语言代表的含义十分丰富,现有的语音输入通过录取用户语音数据并根据语音识别算法识别输出结果,并未结合用户所处的不同方言等差异性影响因素,对于各地人群的普通话都有不同的特征的情形,容易受方言的影响,无法根据不同地区的人群说话的语速、语音、语义进行差异性的识别,导致现有的语音识别无法适用于更多语义场景,从而,导致基于语义场景的语音识别的准确率往往不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义场景的语音识别方法,其特征在于,包括:采集获取待识别语音数据,并加载语义场景识别模式;将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得所述待识别语音数据的语音特征,其中,所述语音特征包括声调特征、复合音特征、辅音特征、元音特征以及音素特征;基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对,获得所述语音特征对应的预存语义场景模式,并将所述预存语义场景模式作为所述待识别语音数据的目标语义场景模式;基于所述目标语义场景模式对所述待识别语音数据的语音特征执行校验操作,根据校验结果以更新所述语音特征的识别结果。2.根据权利要求1所述的方法,其特征在于,将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别,获得所述待识别语音数据的语音特征,包括:采集获取待识别语音数据,并根据预设窗口长度对所述待识别语音数据分段处理,根据所述待识别语音数据的时序进行排序,生成语音数据列表;将所述语音数据列表中的各分段语音数据并行输入预先构建的语义场景识别模型中进行基于语义场景的语音特征识别;获得所述语义场景识别模型输出的语音特征识别结果。3.根据权利要求2所述的方法,其特征在于,所述预先构建的语义场景识别模型中加载有用于语音特征识别的汉语方言的语音学和音韵学数据库,所述语音学和音韵学数据库中包括语音学和音韵学基础的发音音标、元音、辅音、复合音以及声调数据。4.根据权利要求3所述的方法,其特征在于,所述预先构建的语义场景识别模型由不同语义场景模式下的标准语音数据样本训练得到,其中,所述标准语音数据样本包含不同语义场景识别模式下的汉语方言。5.根据权利要求1所述的方法,其特征在于,基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对,获得所述语音特征对应的预存语义场景模式,包括以下步骤:根据所述语音特征中的声调特征,利用语义场景识别模型在加载的语义场景识别模式中检测所述声调特征中是否存在异常声调特征,若存在则将对应的语义场景模式排除,若不存在则将对应的语义场景模式加载为声调特征预存语义场景模式;判断所述复合音特征是否符合预设的语义场景识别模式,若存在则将对应的语义场景模式排除,若不存在则将对应的语义场景模式加载为复合音特征预存语义场景模式;判断所述辅音特征是否符合预设的语义场景识别模式,若存在则将对应的语义场景模式排除,若不存在则将对应的语义场景模式加载为辅音特征预存语义场景模式;判断所述元音特征是否符合预设的语义场景识别模式,若存在则将对应的语义场景模式排除,若不存在则将对应的语义场景模式加载为元音特征预存语义场景模式;判断所述音素特征是否符合预设的语义场景识别模式,若存在则将对应的语义场景模式排除,若不存在则将对应的语义场景模式加载为音素特征预存语义场景模式;基于加载的所述语义场景识别模式在...

【专利技术属性】
技术研发人员:张伟扬王钰啸何敏
申请(专利权)人:合肥中鸿嘉睿信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1