基于语义场景的语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号：38811583 阅读：16 留言：0更新日期：2023-09-15 19:50

本发明专利技术涉及一种基于语义场景的语音识别方法、装置、设备及存储介质，涉及互联网技术领域，该方法包括以下步骤：通过采集获取待识别语音数据，并加载语义场景识别模式；将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别，获得待识别语音数据的语音特征；基于语音特征与加载的语义场景识别模式进行比对，获得语音特征对应的预存语义场景模式，并将预存语义场景模式作为待识别语音数据的目标语义场景模式；基于目标语义场景模式对待识别语音数据的语音特征执行校验操作，根据校验结果以更新语音特征的识别结果。本发明专利技术可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。输入的语音数据对应的语义。输入的语音数据对应的语义。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义场景的语音识别方法、装置、设备及存储介质

[0001]本专利技术涉及语音处理
，特别是涉及一种基于语义场景的语音识别方法、装置、设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断发展和研究，语音识别已实现对自然语言的识别和理解，能够将接收到的语音转换成文字，为语音识别技术方面的快速发展奠定了基础。
[0003]但是，现有的语音输入通过录取用户语音数据并根据语音识别算法识别输出结果，并未结合用户所处的不同方言等差异性影响因素，对于各地人群的普通话都有不同的特征的情形，容易受方言的影响，无法根据不同地区的人群说话的语速、语音、语义进行差异性的识别，导致现有的语音识别无法适用于更多语义场景，从而，导致基于语义场景的语音识别的准确率往往不高。

技术实现思路

[0004]本申请实施例提供一种基于语义场景的语音识别方法、装置、设备及存储介质，可以提高语义场景下语音识别的准确率。
[0005]为实现上述目的，本专利技术提供了以下技术方案：第一方面，本申请实施例提供了一种基于语义场景的语音识别方法，包括：采集获取待识别语音数据，并加载语义场景识别模式；将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别，获得所述待识别语音数据的语音特征，其中，所述语音特征包括声调特征、复合音特征、辅音特征、元音特征以及音素特征；基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对，获得所述语音特征对应的预存语义场景模式，并将所...

【技术保护点】

【技术特征摘要】
1.一种基于语义场景的语音识别方法，其特征在于，包括：采集获取待识别语音数据，并加载语义场景识别模式；将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别，获得所述待识别语音数据的语音特征，其中，所述语音特征包括声调特征、复合音特征、辅音特征、元音特征以及音素特征；基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对，获得所述语音特征对应的预存语义场景模式，并将所述预存语义场景模式作为所述待识别语音数据的目标语义场景模式；基于所述目标语义场景模式对所述待识别语音数据的语音特征执行校验操作，根据校验结果以更新所述语音特征的识别结果。2.根据权利要求1所述的方法，其特征在于，将采集的待识别语音数据输入预先构建的语义场景识别模型进行语音特征识别，获得所述待识别语音数据的语音特征，包括：采集获取待识别语音数据，并根据预设窗口长度对所述待识别语音数据分段处理，根据所述待识别语音数据的时序进行排序，生成语音数据列表；将所述语音数据列表中的各分段语音数据并行输入预先构建的语义场景识别模型中进行基于语义场景的语音特征识别；获得所述语义场景识别模型输出的语音特征识别结果。3.根据权利要求2所述的方法，其特征在于，所述预先构建的语义场景识别模型中加载有用于语音特征识别的汉语方言的语音学和音韵学数据库，所述语音学和音韵学数据库中包括语音学和音韵学基础的发音音标、元音、辅音、复合音以及声调数据。4.根据权利要求3所述的方法，其特征在于，所述预先构建的语义场景识别模型由不同语义场景模式下的标准语音数据样本训练得到，其中，所述标准语音数据样本包含不同语义场景识别模式下的汉语方言。5.根据权利要求1所述的方法，其特征在于，基于所述语音特征的声调特征、复合音特征、辅音特征、元音特征以及音素特征与加载的语义场景识别模式进行比对，获得所述语音特征对应的预存语义场景模式，包括以下步骤：根据所述语音特征中的声调特征，利用语义场景识别模型在加载的语义场景识别模式中检测所述声调特征中是否存在异常声调特征，若存在则将对应的语义场景模式排除，若不存在则将对应的语义场景模式加载为声调特征预存语义场景模式；判断所述复合音特征是否符合预设的语义场景识别模式，若存在则将对应的语义场景模式排除，若不存在则将对应的语义场景模式加载为复合音特征预存语义场景模式；判断所述辅音特征是否符合预设的语义场景识别模式，若存在则将对应的语义场景模式排除，若不存在则将对应的语义场景模式加载为辅音特征预存语义场景模式；判断所述元音特征是否符合预设的语义场景识别模式，若存在则将对应的语义场景模式排除，若不存在则将对应的语义场景模式加载为元音特征预存语义场景模式；判断所述音素特征是否符合预设的语义场景识别模式，若存在则将对应的语义场景模式排除，若不存在则将对应的语义场景模式加载为音素特征预存语义场景模式；基于加载的所述语义场景识别模式在...

【专利技术属性】
技术研发人员：张伟扬，王钰啸，何敏，
申请(专利权)人：合肥中鸿嘉睿信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人