语音识别方法和装置制造方法及图纸

技术编号:12530317 阅读:125 留言:0更新日期:2015-12-18 01:39
本发明专利技术提出一种语音识别方法和装置,该语音识别方法包括:获取用户的语音数据;将所述用户的语音数据发送给服务端,以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对,获取用户的个性化语音数据;接收服务端发送的用户的个性化语音数据,以及,在语音识别时,采用所述用户的个性化语音数据进行语音识别。该方法能够降低语音识别达到较高成功率所需的时间。

【技术实现步骤摘要】

本专利技术涉及语音处理
,尤其涉及一种语音识别方法和装置
技术介绍
由于地域、环境、身体等因素,人们的语音或多或少的都存在一定的差异,这不仅局限于方言等地域性差别。为了提高语音识别的成功率,需要获取用户的语言习惯。现有技术中,通常是在多次的语音识别过程中,逐渐获知用户的语音习惯,这样就会造成达到较高的语音识别成功率需要较长的时间。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种语音识别方法,该方法可以降低语音识别达到较高成功率所需的时间。本专利技术的另一个目的在于提出一种语音识别装置。为达到上述目的,本专利技术第一方面实施例提出的语音识别方法,包括:获取用户的语音数据;将所述用户的语音数据发送给服务端,以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对,获取用户的个性化语音数据;接收服务端发送的用户的个性化语音数据,以及,在语音识别时,采用所述用户的个性化语音数据进行语音识别。本专利技术第一方面实施例提出的语音识别方法,通过先获取用户的个性化语音数据,在语音识别时采用用户的个性化语音数据,可以在一开始进行语音识别时就可以获取很高的识别成功率,降低达到较高的语音识别成功率所需的时间。为达到上述目的,本专利技术第二方面实施例提出的语音识别装置,包括:获取模块,用于获取用户的语音数据;发送模块,用于将所述用户的语音数据发送给服务端,以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对,获取用户的个性化语音数据;识别模块,用于接收服务端发送的用户的个性化语音数据,以及,在语音识别时,采用所述用户的个性化语音数据进行语音识别。本专利技术第二方面实施例提出的语音识别装置,通过先获取用户的个性化语音数据,在语音识别时采用用户的个性化语音数据,可以在一开始进行语音识别时就可以获取很高的识别成功率,降低达到较高的语音识别成功率所需的时间。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的语音识别方法的流程示意图;图2是本专利技术另一实施例提出的语音识别方法的流程示意图;图3是本专利技术另一实施例提出的语音识别方法的流程示意图;图4是本专利技术另一实施例提出的语音识别装置的结构示意图;图5是本专利技术另一实施例提出的语音识别装置的结构示意图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的语音识别方法的流程示意图,该方法包括:Sll:获取用户的语音数据。其中,可以采用显式或隐式的方式,获取用户的语音数据。显式的方式是指向用户展示素材,并获取用户朗诵或歌唱该素材的语音,从而获取用户的语音数据。隐式的方式是指不向用户展示素材,而是在后台分析用户的日常语音,如通话数据、语音聊天数据、语音消息数据等,获取用户的语音数据。S12:将所述用户的语音数据发送给服务端,以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对,获取用户的个性化语音数据。例如,可以先从多个标准语音数据中查找出相似语音数据,再计算用户的语音数据与相似语音数据之间的差异,将差异最小的标准语音数据作为用户的个性化语音数据。S13:接收服务端发送的用户的个性化语音数据,以及,在语音识别时,采用所述用户的个性化语音数据进行语音识别。在确定出用户的个性化语音数据后,可以依据该个性化语音数据进行语音识别,从而提高语音识别成功率。本实施例中,通过先获取用户的个性化语音数据,在语音识别时采用用户的个性化语音数据,可以在一开始进行语音识别时就可以获取很高的识别成功率,降低达到较高的语音识别成功率所需的时间。图2是本专利技术另一实施例提出的语音识别方法的流程示意图,该方法以显式方式进行初始化为例,该方法包括:S201:用户安装用于语音识别的应用程序(简称为语音识别应用)。S202:用户打开语音识别应用。例如,用户通过点击语音识别应用的图标打开语音识别应用。S203:用户进行显式学习。例如,用户点击语音识别应用内的显式学习功能项,以进行显式学习。S204:语音识别应用向展示可供选择的素材。例如,语音识别应用在检测到用户点击用于显式学习的功能项后,向用户展示可供选择的素材。可供选择的素材例如包括:歌曲、文字、电影片段等。S205:用户选择素材进行语音录入。用户可以根据自己的喜欢选择素材,并依据该素材进行朗诵或歌唱等,从而录入用户的语音。S206:语音识别应用接收用户的语音输入。在用户录入语音后,可以将该语音传输给语音识别应用。S207:语音识别应用上传用户的语音输入和用户信息到服务器。用户信息包括:用户标识(ID),还可以包括其他数据,如年龄、性别、地域等。其中,用户可以预先在语音识别应用内进行用户信息设置,并在录入语音信息之间先登录,从而语音识别应用可以获取当前登录用户的用户ID以及其他数据,获取用户信息。语音识别应用在接收到当前登录的用户录入的语音输入后,可以将该语音输入与相应的用户信息发送给服务器。S208:服务器接收语音识别应用发送的语音输入和用户信息。S209:服务器根据用户信息查找相似标准语音。其中,服务器内预先保存多种标准语音,并关联保存标准语音的标识信息,如“普通话、北京、男”,“上海话、上海、女”等,从而可以根据用户信息与标准语音的标识信息查找相似标准语音。例如,用户信息中包含“北京、男”,则可以将标识信息是“普通话、北京、男”的标准语音作为相似标准语音。相似标准语音可以是一个或多个。S210:对输入语音进行去噪正则化,得到处理后的输入语音。去噪正则化用于去除输入语音中的干扰因素,例如,去除背景噪音、音量提升或降低等。S211:计算处理后的输入语音与相似标准语音的差异特征信息,生成用户特征集。差异特征信息例如包括:语速、音质频谱、特殊字差异等。用户特征集中记录该用户的每个相似标准语音与输入语音之间的差异特征信息,如果一个用户的相似标准语音有多个,则可以对应一个用户生成多个标准语音对应的差异特征信息。S212:根据每个相似标准语音对应的差异特征信息,将差异最小的相似标准语音作为用户的个性化语音数据。另外,该过程可以是一个持续的流程,例如,随着后续用户的语音输入的不断增加,或者标准语音的不断更当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:获取用户的语音数据;将所述用户的语音数据发送给服务端,以使所述服务端将所述用户的语音数据与预先保存的标准语音数据进行比对,获取用户的个性化语音数据;接收服务端发送的用户的个性化语音数据,以及,在语音识别时,采用所述用户的个性化语音数据进行语音识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:张书豪李丰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1