一种基于AI多模态交互的虚拟数字人应用方法技术

技术编号：41385024 阅读：2 留言：0更新日期：2024-05-20 19:06

本发明专利技术提供一种基于AI多模态交互的虚拟数字人应用方法，属于人工智能领域，本发明专利技术融合多模态建模，人工智能语音识别、图像识别，大数据等技术，包括唤醒、语音交互、人脸识别、手势识别、才艺展示等功能。本发明专利技术融合了多种AI人工智能技术：语音识别算法，人脸识别算法，手势识别算法，文本相似度匹配，AI换脸算法，口型驱动算法等。通过语音或手势识别等唤醒数字人，与数字人进行语音交互，数字人语音识别用户问题，进行语音互动解答，结束对话等；同时，数字人还包括手势智能交互，人脸智能交互，趣味互动等功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，尤其涉及一种基于ai多模态交互的虚拟数字人应用方法。

技术介绍

1、“数字人”(digital human/meta human)系指以数字形式存在于数字空间中，具有拟人或真人的外貌、行为和特点的虚拟人物，也称之为虚拟形象、数字虚拟人、虚拟数字人等。

2、“人工智能”(artificial intelligence，ai)系指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

3、“语音唤醒”(voice wakeuper)系指通过辨别输入的音频中特定的词语(如“小新小新”)，返回被命中(唤醒)结果，应用通过回调的结果，进行下一步的处理，如点亮屏幕，或与用户进行语音交互等。

4、“语音听写”系指基于自然语言处理，将自然语言音频转换为文本输出的技术

5、“手势识别”系指通过数学算法来识别人类手势。

6、“人脸识别”系指基于人的脸部特征信息进行身份识别的一种生物识别技术。

7、“自然语言处理”(natural language processing，nlp)系指能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

8、“3d”(3dimension)系指三维，在平面二维系中又加入了一个方向向量构成的空间系，在人的视觉上具有立体感。

9、随着人工智能技术和交互技术的逐渐成熟，虚拟数字人产业正在以高渗透率的趋势发展，越来越多的市场主体开始进行产业布局。在当前数字经济时代中

10、目前，我国数字人商业化应用场景越来越丰富，数字人已经在金融、传媒、游戏、文旅等行业做出快速探索。这得益于数字人产业底层技术、应用平台的高速发展，从技术开发到落地应用的产业链也正趋于完善。这其中，数字人也逐渐进化为融合语言理解能力、表达能力和智能交互能力的服务型数字人。

技术实现思路

1、为了解决以上技术问题，本专利技术提供了一种基于ai多模态交互的虚拟数字人应用方法。

2、本专利技术的技术方案是：

3、一种基于ai多模态交互的虚拟数字人应用方法，融合多模态建模，人工智能语音识别、图像识别，大数据等技术，实现了一种基于ai多模态交互的虚拟数字人应用，本专利技术包括多模态建模的数字人形象、唤醒、语音交互、人脸识别、手势识别、才艺展示等功能。本专利技术基本流程如下：通过语音或多模态识别等唤醒数字人，与数字人进行语音交互，数字人语音识别用户问题，数字人后端进行问题知识库匹配或者ai大语言模型生成等，进行语音互动解答，结束对话；同时，数字人还包括手势智能交互，人脸识别智能交互，趣味互动等功能。

4、进一步的，本专利技术包括ai多模态建模步骤，包含2d真人模型生成与3d智能建模等。2d真人模型采用真人形象采集与智能口型驱动，ai换脸等技术结合，实现真人形象下的2d播报数字人形象；3d数字人形象使用ai建模技术，

5、口型驱动，肢体驱动技术等，实现可用于实施驱动的超写实3d数字人形象。

6、本专利技术提供基于多种ai算法的唤醒功能，包括基于语音识别算法的语音唤醒、基于人脸识别算法的人脸唤醒、基于手势识别算法的手势唤醒三种唤醒方式，无论哪种唤醒方式唤醒数字人后，用户即可开启与数字人交互流程。唤醒模块提供给用户开启与数字人交互流程的功能，本模块的特点：常驻内存、非子程序、可重入、无覆盖要求、是并发处理。语音唤醒支持为不同的唤醒词，用户语音说唤醒词后，数字人被唤醒并予以回应“在呢”，也可打断交互中的数字人。人脸唤醒支持识别设备前面的用户，识别成功后数字人会自动打招呼。手势唤醒支持用户使用手势和数字人打招呼。

7、进一步的，本专利技术提供语音交互功能，提供语音识别和多模态认知交互，是用户与数字人交互的主要方式。包括自我介绍、智能问答、闲聊(天气预报、讲笑话、朗诵诗词等)、对话模式切换、手机拾音等，是用户与数字人交互的主要方式，本模块核心为语音识别算法与自然语言处理算法，本模块的特点：常驻内存、非子程序、可重入、无覆盖要求、是顺序处理。语音交互模块提供自我介绍、智能问答、闲聊(天气预报、讲笑话、朗诵诗词等)、大语言模型、对话模式切换、手机拾音等。自我介绍提供数字人自我介绍的功能，用户语音说“介绍一下自己”或“你是谁”，数字人能够进行自我介绍，本功能能让用户快速认识数字人，了解数字人能做的工作。智能问答提供给用户自定义知识库，如专业的行业知识库、产品知识库、企业知识库、科普知识库等，能够根据用户提出的问题去知识库里匹配，然后数字人回答对应的内容。闲聊功能提供给用户与数字人闲聊的功能，让用户与数字人的交互过程更轻松，同时，数字人还具备很多预置技能，如天气预报：用户语音说某地的天气，数字人能够播报当天的天气；讲笑话：用户语音说“讲个笑话”，数字人能够随机讲出一个笑话；朗诵诗词等：用户语音说“朗诵一首诗”或“背一首静夜思”，数字人能够朗诵诗词。对话模式切换提供用户切换知识库功能，不同的对话模式会调用不同的知识库，回答的内容有所不同，如语音说“切换业务模式/智能模式”，数字人会切换至相应对话模式。手机拾音提供给用户使用手机拾音或录入文字功能，如在麦克风不可用或周围声音嘈杂的环境中时，可以使用手机扫描屏幕上方的二维码，打开手机拾音界面，通过手机拾音进行交流。

8、本专利技术应用语音识别算法处理人机交互，用户与数字人应用进行对话后，应用采集用户语音，经过语音识别算法，将语音转化为文字，送入自然语言处理模块进行语义理解等。

9、本专利技术语音交互部分包括自然语言处理模块，应用了包括自然语言处理文本相似度匹配算法，大语言模型等，支持自定义问答配置。大语言模型通过使用大量文本数据训练的深度学习，可以生成自然语言文本或理解语言文本的含义，丰富智能问答和闲聊的交互体验。对话模式切换提供用户切换知识库功能，不同的对话模式会调用不同的知识库，回答的内容有所不同，如语音说“切换业务模式/智能模式”，数字人会切换至相应对话模式。

10、本专利技术包括人脸识别功能，数字人应用融合ai人脸识别算法，提供识别人脸库里的人或陌生人的功能，当人出现在设备前面时，自动进行人脸识别，并主动交互。包括人脸库识别、陌生人识别、多人识别。人脸识别提供识别人脸库里的人或陌生人的功能，本模块的特点：常驻内存、非子程序、可重入、无覆盖要求、是顺序处理。人脸识别功能，当人出现在设备前面时，自动进行人脸识别，并主动打招呼开启交互，提供人脸库识别、陌生人识别、多人识别。人脸库识别，如果识别到的人在预置的人脸库中，数字人自动打招呼并提示对应人员的姓名，如“你好，张三”，如果是多次访问则提示“欢迎再次光临”。陌生人识别，如果不在人脸库中，数字人自动打招呼并提示“欢迎新朋友”，如果是多次访问则提示“欢迎再次光临”。多人识别，如果检查到多个人，数字人自动打招呼说“大家好”。<本文档来自技高网...

【技术保护点】

1.一种基于AI多模态交互的虚拟数字人应用方法，其特征在于，

2.根据权利1要求所述的方法，其特征在于，

3.根据权利1要求所述的方法，其特征在于，

4.根据权利1要求所述的方法，其特征在于，

5.根据权利4要求所述的方法，其特征在于，

6.根据权利5要求所述的方法，其特征在于，

7.根据权利1要求所述的方法，其特征在于，

8.根据权利1要求所述的方法，其特征在于，

9.根据权利5要求所述的方法，其特征在于，

10.根据权利1要求所述的方法，其特征在于，

【技术特征摘要】

1.一种基于ai多模态交互的虚拟数字人应用方法，其特征在于，

2.根据权利1要求所述的方法，其特征在于，

3.根据权利1要求所述的方法，其特征在于，

4.根据权利1要求所述的方法，其特征在于，

5.根据权利4要求所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：郑伟，王元强，王培元，修志远，王茂帅，房兰涛，
申请(专利权)人：浪潮智能终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人