一种语音识别交互方法、系统、设备和存储介质技术方案

技术编号:21688488 阅读:34 留言:0更新日期:2019-07-24 15:19
本发明专利技术涉及计算机设备技术领域,特别是涉及一种语音识别交互方法、系统、设备和存储介质。方法包括:接收输入设备发送的用户操作事件信号和用户语音信息,并根据用户操作事件信号以及客户端的输入状态得到语音处理模式信息;将语音处理模式信息和用户语音信息实时发送至云端和/或服务器,通过云端和/或服务器进行处理以获取与用户语音信息对应的识别信息;根据识别信息执行文本输入操作和/或语音控制操作。本发明专利技术实施例中的语音识别交互方法、系统、设备和存储介质,通过简单的语音键操作,实现了用户和客户端之间的语音识别通信,使得可以通过语音进行输入和控制客户端,操作简单方便,拓展了语音识别的功能应用。

A Speech Recognition Interaction Method, System, Equipment and Storage Media

【技术实现步骤摘要】
一种语音识别交互方法、系统、设备和存储介质
本专利技术涉及计算机设备
,特别是涉及一种语音识别交互方法、系统、设备和存储介质。
技术介绍
语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入。若能将语音识别技术与计算机相结合实现语音对计算机进行控制,必将大大提升人们对计算机操控的便捷和高效程度。目前市场上出现了许多支持语音识别功能的鼠标,为了满足对电脑的多种操作,其语音相关的功能键数量较多且操控均较为复杂,两个甚至数个功能键使得人们很难上手和熟练操作,结果导致语音识别技术给鼠标带来的技术提升效果大打折扣。可见,现有技术中语音识别技术与计算机之间的交互由于鼠标功能单一,需要设置多个控制键进行语音识别操作过程,智能化程度低,无法有效快速的进行交互。
技术实现思路
基于此,提供一种语音识别交互方法、系统、设备和存储介质,解决现有技术语音识别交互过程操作繁杂、智能化低的问题。在其中一个实施例中,本专利技术提供了一种语音识别交互方法,应用于客户端,所述客户端可与具有语音采集模块的输入设备通信,所述方法包括以下步骤:接收所述输入设备发送的用户操作事件信号和用户语音信息,并根据所述用户操作事件信号以及所述客户端的输入状态得到语音处理模式信息;将所述语音处理模式信息和所述用户语音信息实时发送至云端和/或服务器,通过所述云端和/或服务器进行处理以获取与所述用户语音信息对应的识别信息;根据所述识别信息执行文本输入操作和/或语音控制操作。在其中一个实施例中,本专利技术提供了一种语音识别交互方法,应用于具有语音采集模块的输入设备,所述方法包括以下步骤:根据用户操作事件生成用户操作事件信号,并将所述用户操作事件信号实时发送至客户端;接收客户端返回的控制信号,若所述控制信号允许进行用户语音采集,则开始采集用户语音信息;将所述用户语音信息实时发送至客户端。本专利技术实施例还提供了一种输入设备,包括壳体,所述壳体设有一个语音操作按键和语音采集装置,以及控制模块,所述控制模块包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求6所述语音识别交互方法的步骤。本专利技术实施例中还提供一种语音识别交互系统,包括:如上所述的输入设备,用于获取用户操作事件信号和用户语音信息并发送至客户端;客户端,用于执行所述的语音识别方法的步骤,以确定语音处理模式,并将所述语音处理模式的模式类型信息和所述用户语音信息实时发送至云端和/或服务器进行语音识别;语音识别端,为具有语音识别和翻译功能的云端或服务器,用于根据所述模式类型信息对所述用户语音信息内容进行识别,并将识别得到的识别信息返回所述客户端,以使所述客户端根据所述识别信息执行文本输入操作和/或语音控制操作。本专利技术实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述语音识别交互方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述语音识别交互方法的步骤。本专利技术实施例中的语音识别交互方法、系统、设备和存储介质,通过简单的语音键操作,实现了用户和客户端之间的语音识别通信,使得可以通过语音进行输入和控制客户端,操作简单方便,提高了人们操作电脑的效率,拓展了语音识别的功能应用。附图说明图1为一个实施例中提供的语音识别交互方法的应用环境示意图;图2为一个实施例中提供的语音识别交互方法的流程图;图3为一个实施例中提供的确定语音处理模式的流程图;图4为另一个实施例中提供的语音识别交互方法的流程图;图5为一个实施例中提供的鼠标的结构框图;图6为一个实施例中提供的语音识别交互系统的结构框图;图7为一个实施例中提供的计算机设备的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx单元称为第二xx单元,且类似地,可将第二xx单元称为第一xx单元。图1为一个实施例中提供的语音识别交互方法的应用环境示意图,如图1所示,在该应用环境中,包括客户端110、语音采集端120和语音识别端130。客户端110可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN(ContentDeliveryNetwork,内容分发网络)等基础云计算服务的云服务器,具体可以是笔记本电脑、手机、计算机等,本专利技术不进行严格限制。语音采集端120包含有本专利技术实施例中的输入设备,可以是设置在鼠标或者键盘上的输入设备,或者独立的其他输入设备,其有一个语音操作按键和语音采集装置,并能够进行语音采集工作。语音识别端130可以是某些具备语音识别文字转换功能的服务云端,比如腾讯语音云、讯飞语音云等云端语音识别服务器,本申请不进一步限制。在本专利技术实施例中,通过一个语音操作键简单的操作,语音采集端120与客户端110进行通信,通过语音识别端130对用户语音进行识别和翻译,可以实现用户与客户端的语音交互,从而实现对客户端的语音输入和语音控制。实施例一如图2所示,在一个实施例中,提供了一种语音识别交互方法,本实施例主要以该方法应用于上述图1中的客户端110来举例说明,具体可以包括以下步骤:步骤S201,接收输入设备发送的用户操作事件信号和用户语音信息,并根据用户操作事件信号以及客户端的输入状态得到语音处理模式信息;步骤S202,将语音处理模式信息和用户语音信息实时发送至云端和/或服务器,通过云端和/或服务器进行处理以获取与用户语音信息对应的识别信息;步骤S203,根据识别信息执行文本输入操作和/或语音控制操作。在本专利技术实施例中,识别信息为语音的文本信息和/或语音控制指令信息,根据识别信息执行文本输入操作和/或语音控制操作,具体包括:若语音处理模式为文本输入模式,则将语音的文本信息输入当前编辑光标所在处;若语音处理模式为语音指令模式,则对语音控制指令信息进行识别,根据语音控制指令信息对客户端的系统进行控制。在本专利技术实施例中,语音控制指令可以是简单的控制动作,比如“关闭计算机”、“打开音乐播放器”、“打开电影播放器”等等,本专利技术不进行一一列举,具体的,语音控制指令还可以由用户根据自己的习惯在客户端进行设置,从而使得电脑的语音控制更加简单方便。如图3所示,为实施例中提供的确定语音处理模式的流程图,在本专利技术实施例中,步骤S201即接收输入设备发送的用户操作事件信号和用户语音信息,并根据用户操作事件信号以及客户端的输入状态得到语音处理模式信息,具体为:步骤S301,接收输入设备发送的用户操作事件信号,根据用户操作事件信号判断用户操作事件类型;步骤S302,根据用户操作事件类型以及客户端的输入状态,获得语音处理模式信息,语音处理模式信息包括语音处理模式为本文档来自技高网...

【技术保护点】
1.一种语音识别交互方法,应用于客户端,所述客户端可与具有语音采集模块的输入设备通信,其特征在于,所述方法包括以下步骤:接收所述输入设备发送的用户操作事件信号和用户语音信息,并根据所述用户操作事件信号以及所述客户端的输入状态得到语音处理模式信息;将所述语音处理模式信息和所述用户语音信息实时发送至云端和/或服务器,通过所述云端和/或服务器进行处理以获取与所述用户语音信息对应的识别信息;根据所述识别信息执行文本输入操作和/或语音控制操作。

【技术特征摘要】
1.一种语音识别交互方法,应用于客户端,所述客户端可与具有语音采集模块的输入设备通信,其特征在于,所述方法包括以下步骤:接收所述输入设备发送的用户操作事件信号和用户语音信息,并根据所述用户操作事件信号以及所述客户端的输入状态得到语音处理模式信息;将所述语音处理模式信息和所述用户语音信息实时发送至云端和/或服务器,通过所述云端和/或服务器进行处理以获取与所述用户语音信息对应的识别信息;根据所述识别信息执行文本输入操作和/或语音控制操作。2.如权利要求1所述的交互方法,其特征在于,所述接收所述输入设备发送的用户操作事件信号和用户语音信息,并根据所述用户操作事件信号以及所述客户端输入状态确定得到语音处理模式信息,具体包括:接收所述输入设备发送的用户操作事件信号,根据所述用户操作事件信号判断用户操作事件类型;根据所述用户操作事件类型以及所述客户端的输入状态,获得语音处理模式信息,所述语音处理模式信息包括所述语音处理模式为文本输入模式或语音指令模式;根据所述语音处理模式信息发送控制信号至所述输入设备,以使所述输入设备开始或停止用户语音采集。3.如权利要求2所述的交互方法,其特征在于,所述用户操作事件类型包括用户对所述输入设备上操作按键进行单击或长按;所述接收所述输入设备发送的用户操作事件信号,根据所述用户操作事件类型以及所述客户端的输入状态,获得语音处理模式信息,具体包括:接收到所述用户操作事件信号时开始计时;若所述用户操作事件信号持续时间未超过预设时间且仅发生一次,则所述用户操作事件类型为单击操作按键,与所述用户操作事件类型对应的语音处理模式为输入文本模式;若所述用户操作事件信号持续时间超过预设时间且仅发生一次,则所述用户操作事件类型为长按操作按键,与所述用户操作事件类型对应的语音处理模式为语音命令模式。4.如权利要求3所述的交互方法,其特征在于,所述文本输入模式包括直接文本输入模式和翻译文本输入模式;所述若所述用户操作事件信号持续时间未超过预设时间且仅发生一次,则所述用户操作事件类型为单击操作按键,与所述用户操作事件对应的语音处理模式为输入文本模式,具体包括:若所述客户端当前处于直接文本输入状态,则将所述语音处理模式确定为所述直接输入文本模式,以便将所述用户语音信息转换为与语音对应语言的文本信息;若所述客户端当前处于翻译文本输入状态,则将所述...

【专利技术属性】
技术研发人员:马冰马升朱国正
申请(专利权)人:合肥马道信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1