音频交互的处理方法、系统、服务端、客户端和电子设备技术方案

技术编号：43615203 阅读：27 留言：0更新日期：2024-12-11 14:58

本公开涉及一种音频交互的处理方法、系统、服务端、客户端和电子设备，涉及计算机技术领域。本公开的音频交互的处理方法，由音频处理服务端执行，包括：将客户端发送的输入音频，转换为待回复文本；将待回复文本发送至文本处理服务端，生成回复文本流；接收客户端对回复文本流对应的回复音频流的请求，其中，请求包括回复文本流对应的消息标识，消息标识由文本处理服务端发送至客户端；根据消息标识，从文本处理服务端获取回复文本流；根据回复文本流，生成回复音频流；将回复音频流发送至客户端，进行播放。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及计算机，特别涉及一种音频交互的处理方法、系统、服务端、客户端和电子设备。

技术介绍

1、随着互联网技术的发展，人机语音交互技术在越来越多的场景中应用。例如，智能家居、智能客服、智能助手等等。

2、在一些人机语音交互的场景中，用户输入语音，不仅会得到机器人回复的语音，还会基于用户输入的语音生成相应的文本，并且机器人回复的文本也会进行相应显示，使得用户可以通过文本和语音可以同步接收回复，更好的理解回复的内容提升用户体验。

技术实现思路

1、提供该
技术实现思路
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、根据本公开的一些实施例，提供了一种音频交互的处理方法，由音频处理服务端执行，包括：将客户端发送的输入音频，转换为待回复文本；将待回复文本发送至文本处理服务端，生成回复文本流；接收客户端对回复文本流对应的回复音频流的请求，其中，请求包括回复文本流对应的消息标识，消息标识由文本处理服务端发送至客户端；根据消息标识，从文本处理服务端获取回复文本流；根据回复文本流，生成回复音频流；将回复音频流发送至客户端，进行播放。

3、根据本公开的另一些实施例，提供了一种音频交互的处理方法，由客户端执行，包括：将输入音频发送至音频处理服务端，转换为待回复文本，其中，待回复文本被发送至文本处理服务端生成回复文本流；接

4、根据本公开的又一些实施例，提供了一种音频处理服务端，包括：转换模块，被配置为将客户端发送的输入音频，转换为待回复文本；第一发送模块，被配置为将待回复文本发送至文本处理服务端，生成回复文本流；接收模块，被配置为客户端对回复文本流对应的回复音频流的请求，其中，请求包括回复文本流对应的消息标识，消息标识由文本处理服务端发送至客户端；获取模块，被配置为根据消息标识，从文本处理服务端获取回复文本流；生成模块，被配置为根据回复文本流，生成回复音频流；第二发送模块，被配置为将回复音频流发送至客户端，进行播放。

5、根据本公开的再一些实施例，提供一种客户端，包括：第一发送模块，被配置为将输入音频发送至音频处理服务端，转换为待回复文本，其中，待回复文本被发送至文本处理服务端生成回复文本流；第一接收模块，被配置为接收文本处理服务端发送的回复文本流对应的消息标识；第二发送模块，被配置为向音频处理服务端发送对回复文本流对应的回复音频流的请求，其中，请求包括消息标识；第二接收模块，被配置为接收音频处理服务端发送的回复音频流；播放模块，被配置为对回复音频流进行播放。

6、根据本公开的又一些实施例，提供一种音频交互的处理系统，包括：本公开中的任一实施例的音频处理服务端以及本公开中的任一实施例的客户端。

7、根据本公开的再一些实施例，提供一种电子设备，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行本公开中的任一实施例的音频交互的处理方法。

8、根据本公开的又一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行本公开中的任一实施例的音频交互的处理方法。

9、根据本公开的再一些实施例，提供一种计算机程序产品，包括：指令，指令被处理器执行时实现本公开中的任一实施例的音频交互的处理方法。

10、根据本公开的又一些实施例，提供一种计算机程序，包括：指令，指令被处理器执行时实现本公开中的任一实施例的音频交互的处理方法。

11、通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征、方面及其优点将会变得清楚。

本文档来自技高网...

【技术保护点】

1.一种音频交互的处理方法，由音频处理服务端执行，包括：

2.根据权利要求1所述的处理方法，其中，所述回复音频流包括多个音频数据包，所述多个音频数据包中每个音频数据包包括该音频数据包的序号标识，所述处理方法还包括：

3.根据权利要求1或2所述的处理方法，其中，所述回复文本流包括多个文本数据包，所述根据所述消息标识，从所述文本处理服务端获取所述回复文本流包括：

4.根据权利要求3所述的处理方法，还包括：

5.根据权利要求4所述的处理方法，其中，所述根据所述当前文本数据包中的文本片段、所述当前文本数据包之前的文本数据包中的文本片段、以及所述第一预设数量的文本，生成所述当前文本数据包对应的当前音频片段包括：

6.根据权利要求1-5任一项所述的处理方法，其中：

7.根据权利要求6所述的处理方法，还包括：

8.根据权利要求1-7任一项所述的处理方法，其中，所述音频处理服务端与所述文本处理服务端通过远程过程调用方式进行数据传输。

9.根据权利要求1-8任一项所述的处理方法，其中，所述音频处理器通过

10.一种音频交互的处理方法，由客户端执行，包括：

11.根据权利要求10所述的处理方法，其中，所述将输入音频发送至音频处理服务端包括：

12.根据权利要求11所述的处理方法，其中，所述将输入音频发送至音频处理服务端还包括：

13.根据权利要求11或12所述的处理方法，其中，所述回复音频流包括多个音频数据包，所述多个音频数据包中每个音频数据包包括该音频数据包的序号标识，所述对所述回复音频流进行播放包括：

14.根据权利要求13所述的处理方法，其中，所述根据接收的当前音频数据包的序号标识，将所述当前音频数据包存入第二队列包括：

15.根据权利要求10-14任一项所述的处理方法，还包括：

16.根据权利要求10-15任一项所述的处理方法，还包括：

17.根据权利要求10-16任一项所述的处理方法，还包括：

18.一种音频处理服务端，包括：

19.一种客户端，包括：

20.一种音频交互的处理系统，包括：权利要求18所述的音频处理服务端以及权利要求19所述的客户端。

21.根据权利要求20所述的处理系统，还包括：

22.根据权利要求21所述的处理系统，其中，

23.一种电子设备，包括：

24.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-9任一项所述的音频交互的处理方法，或者权利要求10-17任一项所述的音频交互的处理方法。

25.一种计算机程序产品，包括：指令，该指令被处理器执行时实现权利要求1-9任一项所述的音频交互的处理方法，或者权利要求10-17任一项所述的音频交互的处理方法。

26.一种计算机程序，包括：指令，该指令被处理器执行时实现权利要求1-9任一项所述的音频交互的处理方法，或者权利要求10-17任一项所述的音频交互的处理方法。

...

【技术特征摘要】
【国外来华专利技术】

1.一种音频交互的处理方法，由音频处理服务端执行，包括：

4.根据权利要求3所述的处理方法，还包括：

6.根据权利要求1-5任一项所述的处理方法，其中：

7.根据权利要求6所述的处理方法，还包括：

8.根据权利要求1-7任一项所述的处理方法，其中，所述音频处理服务端与所述文本处理服务端通过远程过程调用方式进行数据传输。

9.根据权利要求1-8任一项所述的处理方法，其中，所述音频处理器通过音频服务网关与所述客户端进行数据传输，响应于音频交互应用的启动，所述音频服务网关与所述客户端之间建立长连接。

10.一种音频交互的处理方法，由客户端执行，包括：

11.根据权利要求10所述的处理方法，其中，所述将输入音频发送至音频处理服务端包括：

12.根据权利要求11所述的处理方法，其中，所述将输入音频发送至音频处理服务端还包括：

13.根据权利要求11或1...

【专利技术属性】
技术研发人员：张凡，茅志祥，丁卫兵，吴克强，尹树成，吕大千，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人