一种交互式虚拟数字教师系统及其工作方法技术方案

技术编号：44906172 阅读：7 留言：0更新日期：2025-04-08 18:52

本发明专利技术为解决传统数字人教学中无法与学生进行实时交互的问题，提供了一种交互式虚拟数字教师系统及其工作方法；本发明专利技术能够在数字人教学过程中，接收用户的实时问题信息，并生成对应的问答结果文本；然后，将其转换为教师回答音频，以基于教师回答音频，来生成相应的问题回答数字人视频流；接着，将问题回答数字人视频流推送至客户端播放，即可实现对用户问题的实时回答；最后，在完成问题回答后，本发明专利技术则恢复课程教学音频的推送，进而恢复课程教学视频的播放；如此，本发明专利技术实现了可交互式的虚拟课堂的功能，使得学生在上课期间，能够实时与数字人教师进行交流，不仅能够使学生问题得到及时解答，还提高了学生的积极性和参与度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机应用，具体涉及一种交互式虚拟数字教师系统及其工作方法。

技术介绍

1、随着openai于2022年发布新一代智能产品chatgpt，标志着人类社会进入以人工智能（artificial intelligence，ai）技术等为代表的第四次工业革命时代；ai技术与各行业深度融合，将会成为今后一段时间内技术创新的重要方向；以数字人行业为例，随着大模型的出现，数字人可以结合语音识别、语音合成、语音克隆、大模型等技术，来实现数字人讲解员、数字人虚拟教师、数字人助理等功能，从而带来更加拟人化、智能化的交互体验。

2、目前，在教育教学领域，各种远程视频教育网站，为教育教学发挥了很大的作用，用户或学生能够在足不出户的情况下通过登录网站点击视频来学习知识，其实现了一定程度的泛在教育和个性化教育；然而，传统的数字人教学视频存在以下不足：在教学讲解过程中，教师和学生不能进行实时交互，不仅使学生在课堂中出现的问题得不到及时的解答，还降低了学生的积极性和参与度，而若要进行问答，则只能使用数字人助理，如此，就无法进行视频教学讲课，即现有的数字人教学要么只能实现教学讲课功能，要么就只能实现问答功能，由此，如何提供一种在视频教学讲课过程中，可实时交互的虚拟数字教师系统，已成为了一个亟待解决的问题。

技术实现思路

1、本专利技术的目的是提供一种交互式虚拟数字教师系统及其工作方法，用以解决现有技术所存在的在数字人教学中无法与学生进行实时交互的问题。

2、为了实现上述目的，本专利技术采用以下技术方案：

3、第一方面，提供了一种交互式虚拟数字教师系统，包括：

4、问答交互模块，其中，所述问答交互模块用于获取基于虚拟教师的课程教学过程中的实时问题信息，并基于所述实时问题信息，生成问答结果文本发送至语音克隆模块；

5、语音克隆模块，其中，所述语音克隆模块用于将所述问答结果文本转换为教师回答音频，并将所述教师回答音频发送至语音管理模块；

6、语音管理模块，所述语音管理模块中存储有语音推送队列，所述语音推送队列内包括若干课程教学音频，且所述语音管理模块用于在接收到所述教师回答音频后，中断所述语音推送队列中课程教学音频的推送，并将所述教师回答音频传输至数字虚拟教师克隆模块；

7、数字虚拟教师克隆模块，用于基于所述教师回答音频，生成问题回答数字人视频流，并将所述问题回答数字人视频流推送至客户端，以实现对用户课程教学过程中的问题回复；

8、语音管理模块，还用于在将教师回答音频传输至数字虚拟教师克隆模块后，恢复语音推送队列中的课程教学音频的推送，以使数字虚拟教师克隆模块将语音管理模块推送的课程教学音频转换为数字人教学视频流，并推送至客户端，以恢复基于虚拟教师的课程教学视频的播放。

9、基于上述公开的内容，本专利技术设置有问答交互模块，其用于获取课程教学过程中的实时问题信息，并生成实时问题信息对应的问答结果文本；然后，将问答结果文本发送至语音克隆模块，而语音克隆模块则可基于问答结果文本，来生成教师回答音频发送至语音管理模块；而后，语音管理模块在接收到该教师回答音频后，则会中断语音推送队列内课程教学音频的推送，并将教师回答音频传输至数字虚拟教师克隆模块；接着，数字虚拟教师克隆模块即可基于教师回答音频，来生成问题回答数字人视频流推送至客户端，以实现对用户问题的实时回答；最后，语音管理模块在将教师回答音频发送至数字虚拟教师克隆模块后，则会恢复语音推送队列中的课程教学音频的推送，以恢复当前课程教学视频的播放。

10、通过上述设计，本专利技术所提供的交互式虚拟数字教师系统，能够在数字人教学过程中，接收用户的实时问题信息，并生成对应的问答结果文本；然后，将其转换为教师回答音频，以基于教师回答音频，来生成相应的问题回答数字人视频流；接着，将问题回答数字人视频流推送至客户端播放，即可实现对用户问题的实时回答；最后，在完成问题回答后，本专利技术则恢复课程教学音频的推送，进而恢复课程教学视频的播放；如此，本专利技术实现了可交互式的虚拟课堂的功能，使得学生在上课期间，能够实时与数字人教师进行交流，从而摆脱了传统数字教师系统直接生成视频而不能进行交互的缺点，不仅能够使学生问题得到及时解答，还提高了学生的积极性和参与度，因此，特别适用于在教育平台的大规模应用与推广。

11、在一个可能的设计中，若所述实时问题信息为文本信息，所述问答交互模块，则用于将所述实时问题信息输入至第一问答模型，以得到所述问答结果文本，其中，所述第一问答模型是以若干历史问题文本信息为输入，各个历史问题文本信息对应的问答结果为输出而训练得到的，且所述第一问答模型包括文本大语言模型；

12、若所述实时问题信息为语音信息，所述问答交互模块，则用于将所述实时问题信息进行文字转换，得到问题文本，并将所述问题文本输入至第一问答模型，以得到问答结果文本；或

13、将所述实时问题信息输入至预训练的第二问答模型，以得到所述问答结果文本，其中，所述第二问答模型包括多模态大语言模型；

14、若所述实时问题信息为图片和文本信息，所述问答交互模块，则用于将所述实时问题信息输入至所述第二问答模型，以得到所述问答结果文本。

15、在一个可能的设计中，所述语音推送队列中的每个课程教学音频分别对应一个教学切分文本，其中，所有课程教学音频对应的教学切分文本组成当前数字人课程教学的教学文本，且各个课程教学音频在所述语音推送队列中的排序顺序为各个教学切分文本的切分顺序；

16、其中，所述语音管理模块，用于在接收到课程开启指令时，将所述语音推送队列中的各个课程教学音频依次传输至所述数字虚拟教师克隆模块；

17、数字虚拟教师克隆模块，用于按照接收顺序，将接收到的各个课程教学音频转换为数字人教学视频流，并依次推送至客户端，以实现基于数字虚拟教师的课程教学视频的播放。

18、在一个可能的设计中，还包括：

19、教学文本生成模块，其中，所述教学文本生成模块用于获取教学提示词，并将所述教学提示词输入至教学文本生成大语言模型，以得到教学文本发送至所述语音克隆模块；

20、语音克隆模块，还用于对所述教学文本进行切分处理，得到若干教学切分文本，并基于各个教学切分文本，生成若干课程教学音频发送至所述语音管理模块，其中，每个教学切分文本分别对应一个课程教学音频；

21、语音管理模块，用于接收语音克隆模块发送的若干课程教学音频，并按照各个课程教学音频对应教学切分文本的切分顺序，将各个课程教学音频进行排序，以得到所述语音推送队列。

22、在一个可能的设计中，所述教学文本生成模块，还用于在响应于人机交互操作时，获取教学内容表，并提取出所述教学内容表中的教学关键词，以利用提取出的教学关键词，生成所述教学提示词。

23、在一个可能的设计中，语音克隆模块中存储有语音克隆模型，其中，所述语音克隆模型是以若干指定人员的语音信息对应的文本文档来自技高网...

【技术保护点】

1.一种交互式虚拟数字教师系统，其特征在于，包括：

2. 根据权利要求1所述的一种交互式虚拟数字教师系统，其特征在于，若所述实时问题信息为文本信息，所述问答交互模块，则用于将所述实时问题信息输入至第一问答模型，以得到所述问答结果文本，其中，所述第一问答模型是以若干历史问题文本信息为输入，各个历史问题文本信息对应的问答结果为输出而训练得到的，且所述第一问答模型包括文本大语言模型；

3.根据权利要求1所述的一种交互式虚拟数字教师系统，其特征在于，所述语音推送队列中的每个课程教学音频分别对应一个教学切分文本，其中，所有课程教学音频对应的教学切分文本组成当前数字人课程教学的教学文本，且各个课程教学音频在所述语音推送队列中的排序顺序为各个教学切分文本的切分顺序；

4.根据权利要求3所述的一种交互式虚拟数字教师系统，其特征在于，还包括：

5.根据权利要求4所述的一种交互式虚拟数字教师系统，其特征在于，所述教学文本生成模块，还用于在响应于人机交互操作时，获取教学内容表，并提取出所述教学内容表中的教学关键词，以利用提取出的教学关键词，生成所述教学提示词。

6.根据权利要求1所述的一种交互式虚拟数字教师系统，其特征在于，语音克隆模块中存储有语音克隆模型，其中，所述语音克隆模型是以若干指定人员的语音信息对应的文本集为输入，各个文本集中每个文本对应的克隆语音为输出来训练得到的，任一指定人员对应的文本集包括该任一指定人员对应语音信息的各个音频片段的文字文本，若干指定人员包括多个指定教师，且任一文本集中各个文本对应的克隆语音的音色，与该任一文本集对应的指定人员的音色相同；

7.根据权利要求1所述的一种交互式虚拟数字教师系统，其特征在于，所述数字虚拟教师克隆模块中存储有教师形象克隆模型，其中，所述教师形象克隆模型是以若干指定人员的形象数据集为输入，各个指定人员对应的数字人视频流为输出而训练得到的，任一指定人员的形象数据集包括该任一指定人员的形象特征和音频特征，且任一指定人员的形象特征是根据该任一指定人员的视频或图片所得到的；

8.根据权利要求1所述的一种交互式虚拟数字教师系统，其特征在于，数字虚拟教师克隆模块，还用于将问题回答数字人视频流和数字人教学视频流推送至流媒体服务器，其中，问题回答数字人视频流的推送优先级高于所述数字人教学视频流；

9.根据权利要求8所述的一种交互式虚拟数字教师系统，其特征在于，所述流媒体服务器在接收到视频拉取请求前，还用于对数字人教学视频流进行预加载，并在接收到视频拉取请求后，将预加载后的数字人教学视频流推送至所述客户端。

10.一种权利要求1～9任意一项所述的交互式虚拟数字教师系统的工作方法，其特征在于，包括：

...

【技术特征摘要】

1.一种交互式虚拟数字教师系统，其特征在于，包括：

4.根据权利要求3所述的一种交互式虚拟数字教师系统，其特征在于，还包括：

6.根据权利要求1所述的一种交互式虚拟数字教师系统，其特征在于，语音克隆模块中存储有语音克隆模型，其中，所述语音克隆模型是以若干指定人员的语音信息对应的文本集为输入，...

【专利技术属性】
技术研发人员：任佳伟，李佐文，姜薇，李菅，孙上，闫瑾，张一凡，
申请(专利权)人：北京外国语大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人