基于AI绘画技术的2D政务数字人实时交互方法及系统技术方案

技术编号：44353077 阅读：0 留言：0更新日期：2025-02-25 09:37

本发明专利技术公开了基于AI绘画技术的2D政务数字人实时交互方法及系统，该方法包括：基于AI绘画与Live2D技术相结合的建模方式，制作数字人形象；实时获取用户输入音频，并对所述用户输入音频进行识别，得到音频识别文本及回复文本；根据所述回复文本，基于依存句法分析的半流式语音合成法，合成输出结果音频；基于所述结果音频，对制作的数字人形象进行数字人形象的口型同步实时驱动以及音频播报。本发明专利技术基于AI绘画与Live2D技术相结合的方式实现数字人的低成本构建及部署；对数字人进行系统部署时，采用基于依存句法分析的半流式语音合成方案，提高属于服务类数字人的政务数字人交互实时性和流畅性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及政务数字人，具体涉及基于ai绘画技术的2d政务数字人实时交互方法及系统。

技术介绍

1、伴随着数字化技术的不断成熟，ai虚拟数字人赋能提升一体化政务服务能力，拓展数字政务平台应用的广度和深度。相较于传统的人工窗口服务，政务数字人能够提供24小时不间断的在线服务，结合目前最主流的大模型+知识库的rag框架技术，满足包括但不限于在线政策咨询、智能办事指引以及事项在线申报审批等方面的核心需求。这不仅提升了政务大厅的办事效率，也节省了群众办事的时间成本，为当代政务的数字化转型提供了有力的帮助。

2、在数字人构建时，目前数字人技术根据不同的维度主要分为了2d数字人和3d数字人两个大类，2d数字人一般是以2d图像或视频展示形式为主的数字人，其制作成本相对较低，制作周期较短，而3d数字人是使用三维建模和渲染技术创建的角色，其真实度和细节往往更高更丰富，但制作成本较高且制作周期较长。在2d数字人领域，最常采用的是计算驱动的方式，即基于一段2d真人视频和语音合成模型输出的音频，使用相关深度学习模型如生成对抗网络gan基于输入音频对输入视频里的人物进行克隆得到最终的虚拟数字人视频并输出。除此之外，live2d技术通常也被用于构建2d数字人，与计算驱动方式不同的是，live2d技术通常基于原画师绘制的原画的不同图层，让用户手动定义关键点并制作关键帧动画，最后基于输入音频的音素来控制展现不同的关键帧动画来完成实时渲染。

3、在数字人部署时，保障与用户的实时语音交互是构建数字人后需要解决的核心问题，目前常用的方法是使

4、上述数字人构建以及实时语音交互方式都可以生成数字人，但仍然存在以下问题：

5、(1)、采用计算驱动方式构建2d数字人的渲染效果不稳定，实时性较差，对硬件算力要求高。使用计算驱动方式的数字人渲染效果与深度学习模型的训练效果深度绑定，且由于模型会依赖于训练集的数据特征，会导致数字人动画渲染时的自由度较差且缺乏细节，很难适应训练集中未出现的音频口音。同时，该驱动方式下想要做到实时渲染通常对gpu算力要求非常高，尤其是在移动设备上运行时，实时驱动高质量的面部动画仍然可能面临挑战，这在也一定程度上提高了该类数字人部署的硬件门槛。

6、(2)、采用手动驱动方式的live2d技术虽然能够通过提前预设关键帧动画进一步提高了数字人的实时渲染效率，但是其制作成本和门槛相对计算驱动型的2d数字人较高，需要具备能够绘制出清晰细腻的原画能力，同时其一般的构建方式更适用于构建卡通或插画风格人物，对其人物表情建模要求精度较高，且更偏向构建出用于娱乐、社交的身份型数字人。而政务场景下更偏向服务型数字人，数字人形象更偏向于写实风格，其替代真人服务，稳定、快速的输出可靠的服务内容是其核心的功能。

7、(3)、采用流式技术的实时语音交互方案虽然能够通过分割回复文本实现合成音频的半流式输出，但是其在分割文本时需要根据实际情况设置分割长度或以标点符号为界的方式得到分割语句，且分割语句可能出现不具备完整的句法结构或句子长度过长的问题，这会影响语音合成的吞吐效率，并且进一步地影响数字人整个语音回复的连贯性和实时性；同时，在数字人进行语音交互时可能出现因语音合成模型暂时没有及时输出合成音频而导致数字人停顿时间较长的卡顿情况，从而影响数字人回复的流畅性。

8、因此，现有的政务数字人在构建及部署时，存在部署成本和制作门槛高，语音回复的实时性和连贯性差，易导致数字人停顿时间较长的卡顿情况等问题。

技术实现思路

1、本专利技术所要解决的技术问题是现有的政务数字人在构建及部署时，存在部署成本和制作门槛高，语音回复的实时性和连贯性差，易导致数字人停顿时间较长的卡顿情况等问题。本专利技术目的在于提供基于ai绘画技术的2d政务数字人实时交互方法及系统，基于ai绘画与live2d技术相结合的方式实现数字人的低成本部署，且采用live2d的胶水功进一步地实现了脸部表情和唇形的快速制作；对数字人进行系统部署时，采用基于依存句法分析的半流式语音合成方案，提高属于服务类数字人的政务数字人交互实时性和流畅性。

2、本专利技术通过下述技术方案实现：

3、第一方面，本专利技术提供了基于ai绘画技术的2d政务数字人实时交互方法，该方法包括：

4、基于ai绘画与live2d技术相结合的建模方式，制作数字人形象；

5、实时获取用户输入音频，并对用户输入音频进行识别，得到音频识别文本及回复文本；

6、根据回复文本，基于依存句法分析的半流式语音合成法，合成输出结果音频；

7、基于结果音频，对制作的数字人形象进行数字人形象的口型同步实时驱动以及音频播报。

8、进一步地，基于ai绘画与live2d技术相结合的建模方式，制作数字人形象，包括：

9、获取输入提示词以规定数字人形象，输入提示词包括脸部朝向、头发以及眼部细节；

10、根据输入提示词，采用ai绘画模型控制生成数字人原画；

11、采用超分辨率模型对数字人原画进一步提升原画质量，生成高分辨率的原画图片；

12、采用photoshop工具对原画图片进行拆分分层，得到多个图层；

13、将多个图层导入live2d软件，对关键图层绘制关键描点，并利用胶水功能完成各图层的黏合，实现眨眼动画和五种元音口型动画，建模得到数字人形象，并输出数字人形象工程文件。

14、进一步地，采用photoshop工具对原画图片进行拆分分层，包括：

15、采用photoshop工具对原画中的整个脸部、眼部、嘴部、脖子以及头发进行拆分分层，其中，眼部包括眼眶、眼球和眼白，嘴部包括上嘴唇、下嘴唇及下巴，脸部为去掉眼部和嘴部的剩余部分。

16、进一步地，实时获取用户输入音频，并对用户输入音频进行识别，得到音频识别文本及回复文本，包括：

17、基于web前端实时获取用户输入音频；

18、采用流式语音识别模型funasr，对用户输入音频进行实时识别并输出音频识别文本；

19、将音频识别文本的所有内容输入大模型中，将音频识别文本的所有内容即问题文本转换成文本向量，并在政策向量知识库中进行召回得到匹配的相关文本，并基于流式输出方式输出答案即回复文本。

20、进一步地，根据回复文本，基于依存句法分析的半流式语音合成法，合成输出结果音频，包括：

21、对大模型输出的回复文本，采用标点符号做粗粒度的划分，得到划分的句子；标点符号包括逗号、句号、感叹号、问号和分号；

22、采用依存句法分析法对划分的句子结构进行句法结构分析，判断是否满足完整句法定义；完整句法定义包括主谓结构或主谓宾结构；

23、若满足完整句法定义，则将该句子作为语音本文档来自技高网...

【技术保护点】

1.基于AI绘画技术的2D政务数字人实时交互方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于AI绘画技术的2D政务数字人实时交互方法，其特征在于，基于AI绘画与Live2D技术相结合的建模方式，制作数字人形象，包括：

3.根据权利要求2所述的基于AI绘画技术的2D政务数字人实时交互方法，其特征在于，所述采用PhotoShop工具对所述原画图片进行拆分分层，包括：

4.根据权利要求1所述的基于AI绘画技术的2D政务数字人实时交互方法，其特征在于，实时获取用户输入音频，并对所述用户输入音频进行识别，得到音频识别文本及回复文本，包括：

5.根据权利要求4所述的基于AI绘画技术的2D政务数字人实时交互方法，其特征在于，根据所述回复文本，基于依存句法分析的半流式语音合成法，合成输出结果音频，包括：

6.根据权利要求5所述的基于AI绘画技术的2D政务数字人实时交互方法，其特征在于，根据所述回复文本，基于依存句法分析的半流式语音合成法，合成输出结果音频，还包括：

7.基于AI绘画技术的2D政务数字人实时交互系统

8.根据权利要求7所述的基于AI绘画技术的2D政务数字人实时交互系统，其特征在于，该系统部署在从上往下的前端交互层、业务处理层和基础服务层的实施架构上；

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于AI绘画技术的2D政务数字人实时交互方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于AI绘画技术的2D政务数字人实时交互方法。

...

【技术特征摘要】

1.基于ai绘画技术的2d政务数字人实时交互方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于ai绘画技术的2d政务数字人实时交互方法，其特征在于，基于ai绘画与live2d技术相结合的建模方式，制作数字人形象，包括：

3.根据权利要求2所述的基于ai绘画技术的2d政务数字人实时交互方法，其特征在于，所述采用photoshop工具对所述原画图片进行拆分分层，包括：

4.根据权利要求1所述的基于ai绘画技术的2d政务数字人实时交互方法，其特征在于，实时获取用户输入音频，并对所述用户输入音频进行识别，得到音频识别文本及回复文本，包括：

5.根据权利要求4所述的基于ai绘画技术的2d政务数字人实时交互方法，其特征在于，根据所述回复文本，基于依存句法分析的半流式语音合成法，合成输出结果音频，包括：

6.根据权利要求5所述的基于ai绘画技术的2d政务数字人实时交互方法，其特征在于...

【专利技术属性】
技术研发人员：唐晓澜，周新喜，袁大富，郭俊良，刘昌栋，张志培，
申请(专利权)人：中通服创立信息科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人