语音识别方法、装置及系统制造方法及图纸

技术编号:26794736 阅读:12 留言:0更新日期:2020-12-22 17:11
本申请实施例提供一种语音识别方法、装置及系统。本申请实施例通过根据待识别的目标语音信号对应的目标区域标识,确定与目标区域标识对应的目标语音识别引擎,利用目标语音识别引擎,对目标语音信号进行识别,得到识别结果,能够根据区域标识准确确定对应的语音识别引擎,并基于确定的语音识别引擎获得准确的语音识别结果,提高了语音识别的准确性。

【技术实现步骤摘要】
语音识别方法、装置及系统
本申请实施例涉及音频处理
,尤其涉及一种语音识别方法、装置及系统。
技术介绍
语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。相关技术中,对所有用户使用相同的语音识别引擎识别语音内容。但是,由于不同区域的用户在口音上相差较大,因此,这种方式中语音识别的准确性较低。
技术实现思路
为克服相关技术中存在的问题,本申请实施例提供了一种语音识别方法、装置及系统,以提高语音识别的准确性。根据本申请实施例的第一方面,提供一种语音识别方法,所述方法包括:根据待识别的目标语音信号对应的目标区域标识,确定与所述目标区域标识对应的目标语音识别引擎;利用目标语音识别引擎,对所述目标语音信号进行识别,得到识别结果。根据本申请实施例的第二方面,提供一种语音识别装置,所述装置包括:区域确定模块,用于根据待识别的目标语音信号对应的区域标识,确定目标用户所属的目标区域,所述目标用户为说出所述目标语音信号的用户;内容识别模块,用于利用与所述目标区域对应的目标语音识别引擎,识别所述目标语音信号的内容。根据本申请实施例的第三方面,提供一种语音识别系统,包括麦克风、显示器和处理器:所述麦克风,用于采集语音,并将所述语音转换为语音信号发送给所述处理器;所述处理器,用于根据待识别的目标语音信号对应的目标区域标识,确定与所述目标区域标识对应的目标语音识别引擎,以及利用目标语音识别引擎,对所述目标语音信号进行识别,得到识别结果;所述显示器,用于显示所述识别结果。本申请实施例提供的技术方案可以包括以下有益效果:本申请实施例通过根据待识别的目标语音信号对应的目标区域标识,确定与目标区域标识对应的目标语音识别引擎,利用目标语音识别引擎,对目标语音信号进行识别,得到识别结果,能够根据区域标识准确确定对应的语音识别引擎,并基于确定的语音识别引擎获得准确的语音识别结果,提高了语音识别的准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。图1是本申请实施例提供的语音识别方法的流程示例图。图2是本申请实施例提供的语音识别装置的功能方块图。图3是本申请实施例提供的语音识别设备的一个硬件结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。在本申请实施例使用的术语是仅仅出于描述特定本申请实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在一些应用场景中,经常需要将人的语音转换为计算机可读的输入信息,例如将语音转换为文字。此时,可以利用本申请实施例提供的语音识别方法获得转换后的信息,例如文字。例如,在一个示例性的应用场景中,用户将语音输入至手机中,手机将语音传送给具有语音识别功能的服务器,服务器利用本申请实施例提供的语音识别方法,将语音转换为文字信息,并将该文字信息发送给手机。在其他实施例中,接收语音并将语音传送给服务器的终端也可以是车载设备、智能音箱等。针对相关技术对于所有用户都使用相同的语音识别引擎识别语音内容,进而导致语音识别的准确性较差的情况,本申请实施例基于语音信号的区域标识确定对应的语音识别引擎,以对语音进行识别。由于区域标识与用户说话的口音或方言相关,因此能够准确确定对应的语音识别引擎,从而基于该语音识别引擎准确识别出用户的语音。例如,用户甲说话的口音是浙江口音,用户乙说话的口音是四川口音,。相关技术会将用户甲和用户乙的语音信号用相同的语音识别引擎进行识别。本申请实施例提供的语音识别方法根据从用户甲的语音信号对应的区域标识,用浙江对应的语音识别引擎识别用户甲的语音,根据从用户乙的语音信号对应的区域标识,用四川对应的语音识别引擎识别用户乙的语音。对比可见,利用本申请实施例提供的语音识别方法得到的语音识别结果更加准确。下面通过实施例对本申请实施例提供的语音识别方法进行说明。图1是本申请实施例提供的语音识别方法的流程示例图。如图1所示,该方法可以包括:S101,根据待识别的目标语音信号对应的目标区域标识,确定与目标区域标识对应的目标语音识别引擎。S102,利用目标语音识别引擎,对目标语音信号进行识别,得到识别结果。在步骤S101中,区域标识用于指示用户所属的区域。此处,“用户所属的区域”是指用户说话的口音或方言所属的区域,而不是指用户所在的位置属于哪个区域或者用户的户籍。也就是说,通过区域标识,可以获知用户说话的口音或方言所属的区域,而不用管用户当前在哪里或者用户是哪里人。例如。假设用户丙当前所处位置属于云南,用户丙的户籍是上海,但用户丙说话的口音是广东口音。则用户丙说出的语音对应的区域标识是广东。在本申请实施例中,区域标识可以使用任何能够唯一标识区域的信息表示。在一个示例中,区域标识可以用区域名称表示。例如“上海”、“浙江”、“四川”等等。在一个示例中,区域标识可以用区域简称表示。例如“沪”、“浙”、“川”等等。本申请实施例中,每个区域标识对应一个语音识别引擎,不同区域标识对应不同语音识别引擎。例如,以我国的每一个省份为一个区域,则每个省份对应一个区域标识,且对应一个语音识别引擎。每个语音识别引擎都与本区域的口音或方言相适应。例如,浙江对应语音识别引擎1,四川对应语音识别引擎2,……如此,每一个省对应一个区域标识,且对应一个语音识别引擎。在另一个示例中,可以将一种语言使用范围内的所有地区作为一个区域,这些区域共用一个区域标识。例如,说粤语的地区对应区域标识a和语音识别引擎1,说闽南语的地区对应区域标识b和本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n根据待识别的目标语音信号对应的目标区域标识,确定与所述目标区域标识对应的目标语音识别引擎;/n利用目标语音识别引擎,对所述目标语音信号进行识别,得到识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
根据待识别的目标语音信号对应的目标区域标识,确定与所述目标区域标识对应的目标语音识别引擎;
利用目标语音识别引擎,对所述目标语音信号进行识别,得到识别结果。


2.根据权利要求1所述的方法,其特征在于,所述目标区域标识的获取方式包括:
根据所述目标语音信号的语音特征信息,确定所述目标区域标识;或,
从所述目标用户的输入信息中获取所述目标区域标识;或,
从接收所述目标语音信号的目标终端本地的存储信息中,获取所述目标区域标识;或,
根据接收所述目标语音信号的目标终端的定位信息,获取所述目标区域标识;或,
根据接收所述目标语音信号的目标终端的号码归属地,获取所述目标区域标识。


3.根据权利要求2所述的方法,其特征在于,所述根据所述目标语音信号的语音特征信息,确定所述目标区域标识,包括:
将所述目标语音信号的语音特征信息输入至已训练的区域信息识别模型,以由所述区域信息识别模型依据输入的语音特征信息识别出目标区域标识,所述目标区域标识用于指示说出所述目标语音信号的目标用户所属的区域;
所述确定与所述目标区域标识对应的目标语音识别引擎,包括:
从已训练的各区域的语音识别引擎中选择与所述目标区域标识对应的目标语音识别引擎;
所述利用目标语音识别引擎,对所述目标语音信号进行识别,得到识别结果,包括:
将所述目标语音音频输入至所述目标语音识别引擎,以由所述目标语音识别引擎对输入的目标语音信号进行语音识别,得到识别结果。


4.根据权利要求2所述的方法,其特征在于,所述语音特征信息通过以下步骤确定:
按照设定帧长m,设定帧移n对所述目标语音信号进行分帧,得到至少一个第一音频帧;
按照预设的窗函数对每一第一音频帧进行加窗操作,得到第二音频帧;
对每一第二音频帧进行预加重操作,得到第三音频帧,所述预加重操作用于增加第二音频帧的高频特征的权重;
从各第三音频帧中提取所述目标语音信号的语音特征信息。


5.根据权利要求4所述的方法,其特征在于,所述从各第三音频帧中提取所述目标语音信号的语音特征信息,包括:
对每一第三音频帧进行快速傅里叶变换,得到第一频谱;
对每一第一频谱进行三角滤波,得到第二频谱;
根据预设的梅尔倒谱系数MFCC与频谱的对应关系,确定各第二频谱对应的MFCC;
将确定的各MFCC确定为所述语音特征信息。...

【专利技术属性】
技术研发人员:董勤波周洪伟陈展
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1