交互方法、装置、终端、电子设备和存储介质制造方法及图纸

技术编号:36268139 阅读:71 留言:0更新日期:2023-01-07 10:08
本发明专利技术提供一种交互方法、装置、终端、电子设备和存储介质,其中方法包括:获取音视频数据;基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果;基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,并基于所述图像进行交互。本发明专利技术提供的交互方法、装置、终端、电子设备和存储介质,可以增强用户的体验感。同时得到的图像符合用户情感和/或意图,更加丰富和多样化的图像也增加了趣味性和娱乐性。丰富和多样化的图像也增加了趣味性和娱乐性。丰富和多样化的图像也增加了趣味性和娱乐性。

【技术实现步骤摘要】
交互方法、装置、终端、电子设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种交互方法、装置、终端、电子设备和存储介质。

技术介绍

[0002]随着互联网技术的发展,移动终端的普及,视频通话技术越来越受到人们的青睐。
[0003]当前的视频通话技术功能比较简单,只能支持麦克风录取的声音和摄像头捕获的环境。虽然现在有一些视频聊天软件中嵌入了变音、虚化背景、更改背景、发送视频外的图像,或者更改当前视频中的人物形象来丰富视频通话的趣味性。但是,目前这些视频通话软件提供的功能都需要手动操作,尤其发送视频外的额外趣味图像时,每次都需要用户手动地从图库中选择再发送。同时图库资源少且较固定,影响用户体验感。
[0004]因此,如何丰富视频通话的趣味性和娱乐性,同时增强用户体验感是亟需解决的问题。

技术实现思路

[0005]本专利技术提供一种交互方法、装置、终端、电子设备和存储介质,用以解决现有技术中视频通话功能简单,且需手动从图库选择操作,影响用户体验感的缺陷。
[0006]本专利技术提供一种交互方法,包括:
[0007]获取音视频数据;
[0008]基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果;
[0009]基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,并基于所述图像进行交互。
[0010]根据本专利技术提供的交互方法,所述基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,包括:
[0011]基于图像预测模块,对所述意图和/或情感识别结果进行图像特征预测,得到所述意图和/或情感识别结果对应的预测图像特征,所述图像预测模块是基于意图和/或情感标签,以及与所述意图和/或情感标签相匹配的样本图像训练得到的;
[0012]基于预训练图像解码模块,对所述预测图像特征进行特征解码,得到与所述意图和/或情感识别结果相匹配的图像。
[0013]根据本专利技术提供的交互方法,所述图像预测模块的获取步骤包括:
[0014]获取初始图像预测模块;
[0015]基于预训练图像编码模块,对所述样本图像进行特征编码,得到所述样本图像的样本图像特征;
[0016]基于所述初始图像预测模块,对所述意图和/或情感标签进行图像特征预测,得到所述意图和/或情感标签对应的预测图像特征;
[0017]基于所述样本图像特征和所述预测图像特征之间的相似度,对所述初始图像预测模块进行参数迭代,得到图像预测模块。
[0018]根据本专利技术提供的交互方法,所述基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果,包括:
[0019]对所述音视频数据的声学特征、语义特征和视觉特征进行特征融合,得到融合特征;
[0020]基于所述融合特征,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果。
[0021]根据本专利技术提供的交互方法,所述基于所述融合特征,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果,包括:
[0022]基于所述融合特征,分别对所述音视频数据进行意图和情感特征提取,得到第一意图特征和第一情感特征;
[0023]基于所述第一意图特征和第一情感特征之间的相关性,对所述第一意图特征和第一情感特征进行交互,得到第二意图特征和第二情感特征;
[0024]基于所述第一意图特征和所述第二情感特征,对所述音视频数据进行意图识别,得到所述音视频数据的意图识别结果;和/或,
[0025]基于所述第一情感特征和所述第二意图特征,对所述音视频数据进行情感识别,得到所述音视频数据的情感识别结果。
[0026]根据本专利技术提供的交互方法,所述音视频数据的声学特征和语义特征的确定步骤包括:
[0027]基于预训练语音识别模型中的编码器,对所述音视频数据中的音频数据进行声学特征提取,得到所述音频数据的声学特征;
[0028]基于所述预训练语音识别模型中的解码器,对所述声学特征进行特征提取,得到所述音频数据的隐层特征;
[0029]基于预训练语言模型,对所述音频数据的隐层特征进行语义特征提取,得到所述音频数据的语义特征。
[0030]根据本专利技术提供的交互方法,所述获取音视频数据,包括:
[0031]获取第一客户端用户在视频交流时的音视频数据;
[0032]所述基于所述图像进行交互,包括:
[0033]在检测到第一客户端开启图像交互功能的情况下,将所述图像发送至第二客户端,并在所述第二客户端显示所述图像。
[0034]本专利技术还提供一种交互装置,包括:
[0035]数据获取单元,用于获取音视频数据;
[0036]识别单元,用于基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果;
[0037]交互单元,用于基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,并基于所述图像进行交互。
[0038]本专利技术还提供一种终端,包括顺次连接的摄像头、麦克风和处理器:
[0039]所述摄像头,用于获取视频数据;
[0040]所述麦克风,用于获取音频数据;
[0041]所述处理器,用于基于音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果,基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,并基于所述图像进行交互。
[0042]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述交互方法。
[0043]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述交互方法。
[0044]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述交互方法。
[0045]本专利技术提供的交互方法、装置、终端、电子设备和存储介质,通过音视频的声学特征、语义特征和视觉特征中的至少一种,自动提取音视频所表征的情感和/或意图信息,再使用情感和/或意图信息得到符合用户情感和/或意图的图像,然后基于得到的图像进行交互。相比现有技术中需要用户手动选择图像进行交互的方式,本专利技术能够实现基于音视频自动得到图像,并基于图像进行交互,可以增强用户的体验感。同时得到的图像符合用户情感和/或意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互方法,其特征在于,包括:获取音视频数据;基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果;基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,并基于所述图像进行交互。2.根据权利要求1所述的交互方法,其特征在于,所述基于所述音视频数据的意图和/或情感识别结果,确定与所述意图和/或情感识别结果相匹配的图像,包括:基于图像预测模块,对所述意图和/或情感识别结果进行图像特征预测,得到所述意图和/或情感识别结果对应的预测图像特征,所述图像预测模块是基于意图和/或情感标签,以及与所述意图和/或情感标签相匹配的样本图像训练得到的;基于预训练图像解码模块,对所述预测图像特征进行特征解码,得到与所述意图和/或情感识别结果相匹配的图像。3.根据权利要求2所述的交互方法,其特征在于,所述图像预测模块的获取步骤包括:获取初始图像预测模块;基于所述初始图像预测模块,对所述意图和/或情感标签进行图像特征预测,得到所述意图和/或情感标签对应的预测图像特征;基于预训练图像编码模块,对所述样本图像进行特征编码,得到所述样本图像的样本图像特征;基于所述样本图像特征和所述预测图像特征之间的相似度,对所述初始图像预测模块进行参数迭代,得到图像预测模块。4.根据权利要求1所述的交互方法,其特征在于,所述基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果,包括:对所述音视频数据的声学特征、语义特征和视觉特征进行特征融合,得到融合特征;基于所述融合特征,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果。5.根据权利要求4所述的交互方法,其特征在于,所述基于所述融合特征,对所述音视频数据进行意图和/或情感识别,得到所述音视频数据的意图和/或情感识别结果,包括:基于所述融合特征,分别对所述音视频数据进行意图和情感特征提取,得到第一意图特征和第一情感特征;基于所述第一意图特征和第一情感特征之间的相关性,对所述第一意图特征和第一情感特征进行交互,得到第二意图特征和第二情感特征;基于所述第一意图特征和所述第...

【专利技术属性】
技术研发人员:茆廷志张景宣万根顺潘嘉刘聪胡国平刘庆峰付中华
申请(专利权)人:西安讯飞超脑信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1