一种多模态情感数字虚拟人实时交互方法及系统技术方案

技术编号：43059446 阅读：10 留言：0更新日期：2024-10-22 14:39

本发明专利技术提供了一种多模态情感数字虚拟人实时交互方法及系统，方法包括：获取用户的多模态数据，所述多模态数据包括：语音数据、空间数据和手势数据；将所述语音数据转换为文本数据；将所述文本数据转换为文本流并利用HTTP协议与Socket协议进行传输；对所述文本流进行分句流式处理得到第一回复语音；对所述文本数据进行情感分析，得到情感特征；根据所述情感特征和所述第一回复语音生成第二回复语音；将所述第二回复语音实时传输至用户。涉及领域。本发明专利技术解决了现有技术中交互能力不足、交互效率低下和交互体验感不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大语言模型，特别是涉及一种多模态情感数字虚拟人实时交互方法及系统。

技术介绍

1、目前，对于系统在处理并生成文本、音频的过程可能存在效率瓶颈，特别是在高负载情况下。这会造成用户过长时间的等待，导致交互效率低下；数字虚拟人在接收用户传来的问题时，在进行自然语言理解时会产生一定的理解偏差，导致交互能力下降；人与数字虚拟人进行交互时，数字人的语音与面部无情感特征，表情呆板不生动，导致交互体验感远远不足。

技术实现思路

1、为了克服现有技术的不足，本专利技术的目的是提供一种多模态情感数字虚拟人实时交互方法及系统，本专利技术解决了现有技术中交互能力不足、交互效率低下和交互体验感不足的问题。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种多模态情感数字虚拟人实时交互方法，包括：

4、获取用户的多模态数据，所述多模态数据包括：语音数据、空间数据和手势数据；

5、将所述语音数据转换为文本数据；

6、将所述文本数据转换为文本流并利用http协议与socket协议进行传输；

7、对所述文本流进行分句流式处理得到第一回复语音；

8、对所述文本数据进行情感分析，得到情感特征

9、根据所述情感特征和所述第一回复语音生成第二回复语音

10、将所述第二回复语音实时传输至用户。

11、优选地，还包括：

12、确定所述空间数据和所述手势数据；

13、

14、一种多模态情感数字虚拟人实时交互系统，包括：

15、数据获取模块，用于获取用户的多模态数据，所述多模态数据包括：语音数据、空间数据和手势数据；

16、第一转换模块，用于将所述语音数据转换为文本数据；

17、第二转换模块，用于将所述文本数据转换为文本流并利用http协议与socket协议进行传输；

18、第一处理模块，用于对所述文本流进行分句流式处理得到第一回复语音；

19、第二处理模块，用于对所述文本数据进行情感分析，得到情感特征

20、第三处理模块，根据所述情感特征和所述第一回复语音生成第二回复语音音频输出模块，用于将所述第二回复语音实时传输至用户。

21、优选地，所述数据获取模块包括：

22、语音识别子模块、手势捕捉子模块和空间定位子模块；

23、所述语音识别子模块用于捕捉语音输入，得到语音数据，所述手势捕捉子模块用于捕捉并映射用户手势，得到手势数据，所述空间定位子模块用于确定用户的空间位置，得到空间数据。

24、优选地，所述第一处理模块为gpt flask。

25、本专利技术公开了以下技术效果：

26、本专利技术提供了一种多模态情感数字虚拟人实时交互方法及系统，方法包括：获取用户的多模态数据，所述多模态数据包括：语音数据、空间数据和手势数据；将所述语音数据转换为文本数据；将所述文本数据转换为文本流并利用http协议与socket协议进行传输；对所述文本流进行分句流式处理得到第一回复语音；对所述文本数据进行情感分析，得到情感特征；根据所述情感特征和所述第一回复语音生成第二回复语音；将所述第二回复语音实时传输至用户。本专利技术通过获取用户的多模态数据的输入显著减少了系统的响应时间，从而提高了交互效率和用户体验。这一改进使得用户与数字虚拟人的交互更为流畅，无需长时间等待响应，增强了实时互动的可用性和满意度，并对用户数据进行情感分析，得到情感特征，极大地提升了数字虚拟人理解和表达情感的能力，使得交互更加自然和富有人情味。数字虚拟人能够根据用户的语言和行为表达出相应的情感反应，从而增强了用户的沉浸感和满意度；本专利技术综合了全息效果、情感融合和多模态交互技术，提供了一个自然、直观和吸引人的交互环境。这种全面优化的用户体验特别适用于教育、娱乐或客户服务等领域，能够提升用户的参与度和满意度；本方案设计了一种易于集成到现有系统中的方法，同时保持了对未来技术发展的高度适应性。这一特性保证了系统能够随着技术进步和用户需求的变化而灵活更新和扩展。

本文档来自技高网...

【技术保护点】

1.一种多模态情感数字虚拟人实时交互方法，其特征在于，包括：

2.根据权利要求1所述的一种多模态情感数字虚拟人实时交互方法，其特征在于，还包括：

3.一种多模态情感数字虚拟人实时交互系统，其特征在于，包括：

4.根据权利要求1所述的一种多模态情感数字虚拟人实时交互系统，其特征在于，所述数据获取模块包括：

5.根据权利要求1所述的一种多模态情感数字虚拟人实时交互系统，其特征在于，所述第一处理模块为GPT Flask。

【技术特征摘要】

1.一种多模态情感数字虚拟人实时交互方法，其特征在于，包括：

2.根据权利要求1所述的一种多模态情感数字虚拟人实时交互方法，其特征在于，还包括：

3.一种多模态情感数字虚拟人实时交互系统，其特征在于，包括：

【专利技术属性】
技术研发人员：张滢雪，李光亚，司占军，
申请(专利权)人：天津科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人