基于虚拟对象的人机交互方法、系统、设备和存储介质技术方案

技术编号：41926871 阅读：13 留言：0更新日期：2024-07-05 14:24

本发明专利技术公开一种基于虚拟对象的人机交互方法、系统、设备和存储介质，涉及人工智能技术领域。方法包括响应于接收到的语音信息，获取与所述语音信息相匹配的反馈信息；解析所述反馈信息，生成至少一个目标音频和与所述目标音频对应的目标行为指令，所述目标音频包括一个文本语句对应的音频内容，所述目标行为指令是用于控制虚拟对象执行目标行为的指令，所述目标行为与所述目标音频的音频内容相对应；控制客户端输出目标音频以及控制所述虚拟对象执行所述目标行为，所述客户端是运行所述虚拟对象的设备。本发明专利技术可以提高人机交互流畅度和生动性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能(artificial intelligence，ai)，具体涉及一种基于虚拟对象的人机交互方法、系统、设备和存储介质。

技术介绍

1、随着互联网与数字媒体技术的发展，人工智能技术在各行各业的应用开始涌现。在客服机器人、数字员工、虚拟主播、智能助手等应用领域，虚拟对象正在发挥着日益重要的交互媒介作用。

2、但是，大部分虚拟对象在交互的过程中均存在表达不够流畅，交互不够生动，导致用户体验不好的问题。

技术实现思路

1、本专利技术的主要目的是提供一种基于虚拟对象的人机交互方法、系统、设备和存储介质，旨在解决现有的虚拟对象在交互的过程中用户体验不好问题。

2、为实现上述目的，第一方面，本专利技术提出一种基于虚拟对象的人机交互方法，所述方法包括：响应于接收到的语音信息，获取与所述语音信息相匹配的反馈信息；解析所述反馈信息，生成至少一个目标音频和与所述目标音频对应的目标行为指令，所述目标音频包括一个文本语句对应的音频内容，所述目标行为指令是用于控制虚拟对象执行目标行为的指令，所述目标行为与所述目标音频的音频内容相对应；控制客户端输出所述目标音频以及控制所述虚拟对象执行所述目标行为，所述客户端是运行所述虚拟对象的设备。

3、优选地，响应于接收到的语音信息，获取与所述语音信息相匹配的反馈信息，包括：将所述语音信息转换为对应的文字信息；将所述文字信息与预定义的语料库进行匹配，得到与所述语音信息相匹配的所述反馈信息，所述预定义的语料库中包括所

4、优选地，解析所述反馈信息，生成至少一个目标音频，包括：解析所述反馈信息，得到词序列和符号以及所述反馈信息的总字符数；在所述反馈信息的总字符数小于或等于预设字符数的情况下，确定得到一个文本语句；在所述反馈信息的总字符数大于所述预设字符数的情况下，以所述预设字符数为约束条件，以所述符号为结束标志，对所述反馈信息进行分句，得到至少一个文本语句；将每一文本语句转换为音频内容，得到与所述文本语句对应的目标音频。

5、优选地，解析所述反馈信息，生成与所述目标音频对应的目标行为指令，包括：针对任一目标音频，提取所述目标音频的音频内容包含的音频特征；根据所述音频特征生成与所述音频特征对应的口型控制指令和表情动作控制指令，所述口型控制指令和表情动作控制指令组成所述目标行为指令。

6、优选地，在得到多个文本语句的情况下，将每一文本语句转换为音频内容，得到与所述文本语句对应的目标音频，包括：将所述多个文本语句存入待输出队列，并对最后一个文本语句进行标记；将所述待输出队列中的每一个文本语句转换为与相应文本语句对应的目标音频，得到具有预设顺序的多个目标音频，所述预设顺序为所述待输出队列中的多个文本语句的顺序；根据所述多个目标音频，生成每一目标音频对应的播放信息，所述播放信息包括目标音频的内容、目标音频的文件路径以及目标音频的长度。

7、优选地，控制客户端输出所述目标音频以及控制所述虚拟对象执行所述目标行为，包括：按照所述多个目标音频的预设顺序，顺次向所述客户端发送所述多个目标音频以及每一目标音频对应的目标行为指令；控制所述客户端按照所述预设顺序依次输出所述多个目标音频，以及控制所述虚拟对象按照所述预设顺序依次执行与每一目标音频对应的目标行为；其中，发送任意两个相邻目标音频之间的间隔时长为所述两个相邻目标音频中前一目标音频的长度。

8、优选地，在响应于接收到的语音信息之前，所述方法还包括：控制所述虚拟对象处于空闲状态，直至接收到唤醒信息；响应于所述唤醒信息，控制所述虚拟对象处于聆听的交互状态，其中，所述唤醒信息为接口连接唤醒信息、应用唤醒信息、语音唤醒信息中的一种；以及，在生成至少一个目标音频和与所述目标音频对应的目标行为指令之后，控制所述虚拟对象处于讲话的交互状态。

9、第二方面，本专利技术还提供一种基于虚拟对象的人机交互系统，用于执行第一方面任一项所述的基于虚拟对象的人机交互方法，所述系统包括：自然语言处理单元，用于响应于接收到的语音信息，获取与所述语音信息相匹配的反馈信息；语音集成单元，用于解析所述反馈信息，生成至少一个目标音频和与所述目标音频对应的目标行为指令，所述目标音频包括一个文本语句对应的音频内容，所述目标行为指令是用于控制虚拟对象执行目标行为的指令，所述目标行为与所述目标音频的音频内容相对应；驱动单元，用于控制客户端输出所述目标音频以及控制所述虚拟对象执行所述目标行为，所述客户端是运行所述虚拟对象的设备。

10、优选地，所述语音集成单元包括：所述语音集成单元包括：解析器，用于解析所述反馈信息，得到词序列和符号以及所述反馈信息的总字符数；分句器，用于在所述反馈信息的总字符数小于或等于预设字符数的情况下，确定得到一个文本语句；在所述反馈信息的总字符数大于所述预设字符数的情况下，以所述预设字符数为约束条件，以所述符号为结束标志，对所述反馈信息进行分句，得到至少一个文本语句；文字转语音模块，用于将每一文本语句转换为音频内容，得到与所述文本语句对应的目标音频；语音行为转换单元，用于针对任一目标音频，提取所述目标音频的音频内容包含的音频特征；根据所述音频特征生成与所述音频特征对应的口型控制指令和表情动作控制指令，所述口型控制指令和表情动作控制指令组成所述目标行为指令。

11、优选地，所述驱动单元还用于按照多个目标音频的预设顺序，顺次向所述客户端发送所述多个目标音频以及每一目标音频对应的目标行为指令；控制所述客户端按照所述预设顺序依次输出所述多个目标音频，以及控制所述虚拟对象按照所述预设顺序依次执行与每一目标音频对应的目标行为；其中，发送任意两个相邻目标音频之间的间隔时长为所述两个相邻目标音频中前一目标音频的长度。

12、优选地，所述系统包括语音转文本服务器、文本转语音服务器、语音行为控制服务器、虚拟对象行为处理服务器，所述自然语言处理单元部署在所述语音转文本服务器上；所述解析器、分句器和文字转语音模块部署在所述文本转语音服务器上；所述语音行为转换单元部署在所述语音行为控制服务器上；所述驱动单元部署在所述虚拟对象行为处理服务器上。

13、第三方面，本专利技术还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现如第一方面任一项所述的基于虚拟对象的人机交互方法。

14、第四方面，本专利技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现如第一方面中任一项所述的基于虚拟对象的人机交互方法。

15、本专利技术技术方案中，通过将用户的语音信息转换为相匹配的反馈信息，再根据反馈信息生成至少一个目标音频和控制虚拟对象执行目标行为的目标行为指令，目标行为与目标音频的音频内容相对应，使得虚拟对象每次输出的音频是连贯的，提高表达流畅度，且可以使虚拟对象输出与目标音频相对应的目标行为，使得虚拟对象与人的交互更加生动，提高用本文档来自技高网...

【技术保护点】

1.一种基于虚拟对象的人机交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于虚拟对象的人机交互方法，其特征在于，响应于接收到的语音信息，获取与所述语音信息相匹配的反馈信息，包括：

3.如权利要求1所述的基于虚拟对象的人机交互方法，其特征在于，解析所述反馈信息，生成至少一个目标音频，包括：

4.如权利要求3所述的基于虚拟对象的人机交互方法，其特征在于，解析所述反馈信息，生成与所述目标音频对应的目标行为指令，包括：

5.如权利要求3所述的基于虚拟对象的人机交互方法，其特征在于，在得到多个文本语句的情况下，将每一文本语句转换为音频内容，得到与所述文本语句对应的目标音频，包括：

6.如权利要求5所述的基于虚拟对象的人机交互方法，其特征在于，控制客户端输出所述目标音频以及控制所述虚拟对象执行所述目标行为，包括：

7.如权利要求1所述的基于虚拟对象的人机交互方法，其特征在于，在响应于接收到的语音信息之前，所述方法还包括：

8.一种基于虚拟对象的人机交互系统，其特征在于，用于执行权利要求1-7任一

9.如权利要求8所述的基于虚拟对象的人机交互系统，其特征在于，所述语音集成单元包括：

10.如权利要求8所述的基于虚拟对象的人机交互系统，其特征在于，所述驱动单元还用于按照多个目标音频的预设顺序，顺次向所述客户端发送所述多个目标音频以及每一目标音频对应的目标行为指令；控制所述客户端按照所述预设顺序依次输出所述多个目标音频，以及控制所述虚拟对象按照所述预设顺序依次执行与每一目标音频对应的目标行为；其中，发送任意两个相邻目标音频之间的间隔时长为所述两个相邻目标音频中前一目标音频的长度。

11.如权利要求8-10任一项所述的基于虚拟对象的人机交互系统，其特征在于，所述系统包括语音转文本服务器、文本转语音服务器、语音行为控制服务器、虚拟对象行为处理服务器，

12.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的基于虚拟对象的人机交互方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-7中任一项所述的基于虚拟对象的人机交互方法。

...

【技术特征摘要】

1.一种基于虚拟对象的人机交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于虚拟对象的人机交互方法，其特征在于，响应于接收到的语音信息，获取与所述语音信息相匹配的反馈信息，包括：

3.如权利要求1所述的基于虚拟对象的人机交互方法，其特征在于，解析所述反馈信息，生成至少一个目标音频，包括：

4.如权利要求3所述的基于虚拟对象的人机交互方法，其特征在于，解析所述反馈信息，生成与所述目标音频对应的目标行为指令，包括：

6.如权利要求5所述的基于虚拟对象的人机交互方法，其特征在于，控制客户端输出所述目标音频以及控制所述虚拟对象执行所述目标行为，包括：

7.如权利要求1所述的基于虚拟对象的人机交互方法，其特征在于，在响应于接收到的语音信息之前，所述方法还包括：

8.一种基于虚拟对象的人机交互系统，其特征在于，用于执行权利要求1-7任一项所述的基于虚拟对象的人机交互方法，所述系统包括：

<...

【专利技术属性】
技术研发人员：李存青，侯大海，范海军，张垚，吴迪，苏琦，侯志红，殷浩越，
申请(专利权)人：京东方科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人