语音处理方法、系统和装置制造方法及图纸

技术编号:22078668 阅读:27 留言:0更新日期:2019-09-12 15:09
本申请实施例公开了语音处理方法、系统和装置。该方法的一具体实施方式包括:接收终端设备发送的用户语音,对所述用户语音进行语音识别,得到语音识别结果;向语义服务器发送所述语音识别结果,接收所述语义服务器返回的、针对所述语音识别结果的回复文本;向语音合成服务器发送所述回复文本,将所接收的所述语音合成服务器发送的回复语音向所述终端设备转发。本申请实施例省略了终端设备对服务器返回的结果进行分析处理以及生成请求,有效地节省了处理时间,进而可以缩短终端设备与用户进行交互时,终端设备的反应时间。

Speech Processing Methods, Systems and Devices

【技术实现步骤摘要】
语音处理方法、系统和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及语音处理方法、系统和装置。
技术介绍
相关技术中,用户与终端设备进行语音交互的过程中,往往需要终端设备与服务器进行多次交互。一般来说,终端设备需要依次向语音识别服务器、语义识别服务器以及语音合成服务器发送处理请求,以和这些服务器进行交互。而在终端设备向服务器发送处理请求之前,需要进行分析处理,从而拖慢了与用户进行语音交互时的反应速度。并且,终端设备多次与服务器的通信过程,也需要消耗大量的时间。
技术实现思路
本申请实施例提出了语音处理方法、系统和装置。第一方面,本申请实施例提供了一种语音处理方法,用于语音识别服务器,该方法包括:接收终端设备发送的用户语音,对用户语音进行语音识别,得到语音识别结果;向语义服务器发送语音识别结果,接收语义服务器返回的、针对语音识别结果的回复文本;向语音合成服务器发送回复文本,将所接收的语音合成服务器发送的回复语音向终端设备转发。在一些实施例中,语音识别服务器与语义服务器、语音合成服务器设置于同一个局域网内。在一些实施例中,方法还包括:响应于得到语音识别结果,向终端设备发送语音识别结果;以及方法还包括:响应于接收到回复文本,向终端设备发送回复文本。在一些实施例中,在向语义服务器发送语音识别结果之前,方法还包括:判断语音识别结果是否有效且与上一个语音的识别结果相关,生成第一判断结果,其中,上一个语音与用户语音在同一个唤醒交互过程中;以及向语义服务器发送语音识别结果,包括:向语义服务器发送语音识别结果,以使语义服务器判断语音识别结果是否符合预设会话语义类型并生成第二判断结果;以及在向终端设备发送语音识别结果之前,方法还包括:接收语义服务器反馈的第二判断结果,基于第一判断结果和第二判断结果,确定用户语音是否为有意义语音。在一些实施例中,向终端设备发送语音识别结果,包括:响应于确定用户语音为有意义语音,向终端设备发送语音识别结果。在一些实施例中,基于第一判断结果和第二判断结果,确定用户语音是否为有意义语音,包括:响应于确定第一判断结果和第二判断结果中的至少一个为是,确定用户语音为有意义语音。在一些实施例中,第一判断结果和第二判断结果以数值的形式表示,第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率,第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率;以及基于第一判断结果和第二判断结果,确定用户语音是否为有意义语音,包括:确定第一判断结果的数值与第二判断结果的数值的和;响应于确定和大于或等于预设阈值,确定用户语音为有意义语音。在一些实施例中,第二判断结果的数值为语义服务器利用多个预设会话语义类型模型确定出的多个候选数值中最大的数值。第二方面,本申请实施例提供了一种语音处理装置,用于语音识别服务器,该装置包括:语音识别单元,被配置成接收终端设备发送的用户语音,对用户语音进行语音识别,得到语音识别结果;文本生成单元,被配置成向语义服务器发送语音识别结果,接收语义服务器返回的、针对语音识别结果的至少一个回复文本;反馈单元,被配置成向语音合成服务器发送至少一个回复文本中的回复文本,将所接收的语音合成服务器发送的回复语音向终端设备转发,其中,回复语音是基于语音合成服务器发送的回复文本生成的。在一些实施例中,语音识别服务器与语义服务器、语音合成服务器设置于同一个局域网内。在一些实施例中,装置还包括:第一发送单元,被配置成响应于得到语音识别结果,向终端设备发送语音识别结果;以及方法还包括:第二发送单元,被配置成响应于接收到回复文本,向终端设备发送回复文本。在一些实施例中,装置还包括:判断单元,被配置成在向语义服务器发送语音识别结果之前,判断语音识别结果是否有效且与上一个语音的识别结果相关,生成第一判断结果,其中,上一个语音与用户语音在同一个唤醒交互过程中;以及文本生成单元,包括:第一发送模块,被配置成向语义服务器发送语音识别结果,以使语义服务器判断语音识别结果是否符合预设会话语义类型并生成第二判断结果;以及装置还包括:接收单元,被配置成在向终端设备发送语音识别结果之前,接收语义服务器反馈的第二判断结果,基于第一判断结果和第二判断结果,确定用户语音是否为有意义语音。在一些实施例中,第一发送单元,包括:第二发送模块响应于确定用户语音为有意义语音,向终端设备发送语音识别结果。在一些实施例中,接收单元包括:确定模块,被配置成响应于确定第一判断结果和第二判断结果中的至少一个为是,确定用户语音为有意义语音。在一些实施例中,第一判断结果和第二判断结果以数值的形式表示,第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率,第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率;以及基于第一判断结果和第二判断结果,确定用户语音是否为有意义语音,包括:确定第一判断结果的数值与第二判断结果的数值的和;响应于确定和大于或等于预设阈值,确定用户语音为有意义语音。在一些实施例中,第二判断结果的数值为语义服务器利用多个预设会话语义类型模型确定出的多个候选数值中最大的数值。第三方面,本申请实施例提供了一种语音处理系统,包括语音识别服务器、语义服务器和语音合成服务器;语音识别服务器,用于接收终端设备发送的用户语音,对用户语音进行语音识别,得到语音识别结果,将语音识别结果发送给语义服务器,以及将语义服务器返回的回复文本发送给语音合成服务器,接收语音合成服务器发送的回复文本的回复语音,将回复语音发送给终端设备。在一些实施例中,语音识别服务器与语义服务器、语音合成服务器设置于同一个局域网内。在一些实施例中,语音识别服务器,还用于响应于得到语音识别结果,向终端设备发送语音识别结果;以及语音识别服务器,还用于响应于接收到回复文本,向终端设备发送回复文本。在一些实施例中,语义服务器,还用于接收文本生成请求,其中,文本生成请求是终端设备响应于在第一预设时间段内,未接收到回复文本和回复语音,向语义服务器发送的,文本生成请求包括语音识别结果,第一预设时间段以终端设备接收到语音识别结果作为计时起点。在一些实施例中,语音合成服务器,还用于接收语音合成请求,其中,语音合成请求是终端设备响应于在第二预设时间段内,接收到回复文本且未接收到回复语音,向语音合成服务器发送的,语音合成请求包括回复文本,第二预设时间段以终端设备接收到语音识别结果或以接收到回复文本作为计时起点。在一些实施例中,语音识别服务器,在向语义服务器发送语音识别结果之前,还用于判断语音识别结果是否有效且与上一个语音的识别结果相关,生成第一判断结果,其中,上一个语音与用户语音在同一个唤醒交互过程中;语音识别服务器,还用于向语义服务器发送语音识别结果;语义服务器,还用于判断语音识别结果是否符合预设会话语义类型并生成第二判断结果;以及语音识别服务器,在向终端设备发送语音识别结果之前,还用于接收语义服务器反馈的第二判断结果,基于第一判断结果和第二判断结果,确定用户语音是否为有意义语音。在一些实施例中,语音识别服务器,还用于响应于确定用户语音为有意义语音,向终端设备发送语音识别结果。在一些实施例中,语音识别服务器,还用于响应于确定本文档来自技高网...

【技术保护点】
1.一种语音处理方法,用于语音识别服务器,所述方法包括:接收终端设备发送的用户语音,对所述用户语音进行语音识别,得到语音识别结果;向语义服务器发送所述语音识别结果,接收所述语义服务器返回的、针对所述语音识别结果的回复文本;向语音合成服务器发送所述回复文本,将所接收的所述语音合成服务器发送的回复语音向所述终端设备转发。

【技术特征摘要】
1.一种语音处理方法,用于语音识别服务器,所述方法包括:接收终端设备发送的用户语音,对所述用户语音进行语音识别,得到语音识别结果;向语义服务器发送所述语音识别结果,接收所述语义服务器返回的、针对所述语音识别结果的回复文本;向语音合成服务器发送所述回复文本,将所接收的所述语音合成服务器发送的回复语音向所述终端设备转发。2.根据权利要求1所述的方法,其中,所述语音识别服务器与所述语义服务器、所述语音合成服务器设置于同一个局域网内。3.根据权利要求1所述的方法,其中,所述方法还包括:响应于得到所述语音识别结果,向所述终端设备发送所述语音识别结果;以及所述方法还包括:响应于接收到所述回复文本,向所述终端设备发送所述回复文本。4.根据权利要求3所述的方法,其中,在所述向语义服务器发送所述语音识别结果之前,所述方法还包括:判断所述语音识别结果是否有效且与上一个语音的识别结果相关,生成第一判断结果,其中,所述上一个语音与所述用户语音在同一个唤醒交互过程中;以及所述向语义服务器发送所述语音识别结果,包括:向所述语义服务器发送所述语音识别结果,以使所述语义服务器判断所述语音识别结果是否符合预设会话语义类型并生成第二判断结果;以及在所述向所述终端设备发送所述语音识别结果之前,所述方法还包括:接收所述语义服务器反馈的所述第二判断结果,基于所述第一判断结果和所述第二判断结果,确定所述用户语音是否为有意义语音。5.根据权利要求4所述的方法,其中,所述向所述终端设备发送所述语音识别结果,包括:响应于确定所述用户语音为有意义语音,向所述终端设备发送所述语音识别结果。6.根据权利要求4所述的方法,其中,所述基于所述第一判断结果和所述第二判断结果,确定所述用户语音是否为有意义语音,包括:响应于确定所述第一判断结果和所述第二判断结果中的至少一个为是,确定所述用户语音为有意义语音。7.根据权利要求4所述的方法,其中,所述第一判断结果和所述第二判断结果以数值的形式表示,所述第一判断结果的数值用于表征所述语音识别结果有效且与上一个语音的识别结果相关的概率,所述第二判断结果的数值用于表征所述语音识别结果符合预设会话语义类型的概率;以及所述基于所述第一判断结果和所述第二判断结果,确定所述用户语音是否为有意义语音,包括:确定所述第一判断结果的数值与所述第二判断结果的数值的和;响应于确定所述和大于或等于预设阈值,确定所述用户语音为有意义语音。8.根据权利要求7所述的方法,其中,所述第二判断结果的数值为所述语义服务器利用多个预设会话语义类型模型确定出的多个候选数值中最大的数值。9.一种语音处理系统,包括语音识别服务器、语义服务器和语音合成服务器;所述语音识别服务器,用于接收终端设备发送的用户语音,对所述用户语音进行语音识别,得到语音识别结果,将所述语音识别结果发送给所述语义服务器,以及将所述语义服务器返回的回复文本发送给所述语音合成服务器,接收所述语音合成服务器发送的所述回复文本的回复语音,将所述回复语音发送给所述终端设备。10.根据权利要求9所述的系统,其中,所述语音识别服务器与所述语义服务器、所述语音合成服务器设置于同一个局域网内。11.根据权利要求9所述的系统,其中,所述语音识别服务器,还用于响应于得到所述语音识别结果,向所述终端设备发送所述语音识别结果;以及所述语音识别服务器,还用于响应于接收到所述回复文本,向所述终端设备发送所述回复文本。12.根据权利要求9-1...

【专利技术属性】
技术研发人员:陈建哲欧阳能钧袁鼎
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1