【技术实现步骤摘要】
文本生成方法、装置、冰箱及存储介质
[0001]本专利技术涉及计算机
,具体地涉及一种文本生成方法
、
装置
、
冰箱及存储介质
。
技术介绍
[0002]自从数据
、
算力和算法助力
AI
各项核心技术的快速发展及应用落地,深度学习在智能电器领域被广泛应用,其中数据离不开语音
、
文本
、
图像
、
视频等多源异构数据
。
但是当前当前智能制冷设备文本生成未考虑如何获取更加有效的文本特征
、
模型的鲁棒性及稳定性,难以构建更加有效的深度融合模型
。
技术实现思路
[0003]本专利技术的目的在于提供一种文本生成方法
、
装置
、
冰箱及存储介质
。
[0004]本专利技术提供一种文本生成方法,其特征在于,包括步骤:
[0005]获取多模态数据,并对所述多模态数据进行预处理,所述多模态数据至少包括实时语音数据
、
实时文本数据
、
实时音视频数据;
[0006]转写所述实时语音数据为语音文本数据;
[0007]转写所述实时音视频数据为图像文本数据;
[0008]将所述语音文本数据
、
图像文本数据
、
实时文本数据通过变分自编码器进行文本数据编码;
[0009]完成所述文本数据的生成器模型 ...
【技术保护点】
【技术特征摘要】
1.
一种文本生成方法,其特征在于,包括步骤:获取多模态数据,并对所述多模态数据进行预处理,所述多模态数据至少包括实时语音数据
、
实时文本数据
、
实时音视频数据;转写所述实时语音数据为语音文本数据;转写所述实时音视频数据为图像文本数据;将所述语音文本数据
、
图像文本数据
、
实时文本数据通过变分自编码器进行文本数据编码;完成所述文本数据的生成器模型训练,并将文本进行序列化;通过所述生成器模型获得生成文本,将所述语音文本数据
、
图像文本数据
、
实时文本数据作为真实文本数据和所述生成文本数据进行对抗性训练;根据输入数据,计算所述生成文本匹配结果;输出所述生成文本
。2.
根据权利要求1所述的文本生成方法,其特征在于,所述转写所述实时语音数据为语音文本数据,具体包括:提取所述实时语音数据特征,得到语音特征;将所述语音特征输入语音识别卷积神经网络得到输出文本数据;将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐;将所述输出文本数据经全连接层组合后,输出至分类函数计算得分得到语音文本数据
。3.
根据权利要求2所述的文本生成方法,其特征在于,所述转写所述实时语音数据为语音文本数据,还包括步骤:基于注意力机制,获取所述输出文本数据局部关键特征
。4.
根据权利要求3所述的文本生成方法,其特征在于,所述将所述语音特征向量输入语音识别卷积神经网络得到输出文本数据,具体包括:将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据
。5.
根据权利要求1所述的文本生成方法,其特征在于,所述转写所述实时音视频数据为图像文本数据,具体包括:分离语音数据和视频数据,将视频图像帧数据输入
3D
卷积神经网络得到图像文本数据,将所述图像文本数据序列通过连接时序分类方法与所述图像特征序列对齐;将所述图像文本数据经全连接层组合后,输出至分类函数计算得分得到输出数据
。6.
根据权利要求5所述的文本生成方法,其特征在于,还包括通过基于时空和长距离依赖特征的蒸馏扩散模型进行图像语义识别,具体包括:蒸馏扩散深度融合模型训练好将教师模型引入一个时间和空间连续学生模型,得到与教师模型具有相同参数的学生模型;将蒸馏模型转为离散时间步且步数短的学生模型,重复进行上述步骤,直到将教师模型蒸馏为学生模型的一半步数即
N/2。7.
根据权利要求1所述的文本生成方法,其特征在于,所述多模态数据还包括历史文本
数据,所述历史文本数据至少包括用户的历史评论和偏好文本数据
。8.
根据权利要求1所述的文本生成方法,其特征在于,所述将所述语音文本数据
、
图像文本数据
、
实时文本数据通过变分自编码器进行文本数据编码,具体包括:将所述将所述语音文本数据
、
图像文本数据
、
实时文本数据通过带有
Key
‑
Value
记忆力键值模块功能的
Transformer
模型进行文本自编码
。9.
根据权利...
【专利技术属性】
技术研发人员:曾谁飞,孔令磊,张景瑞,刘卫强,李敏,吴国章,
申请(专利权)人:青岛海尔智能技术研发有限公司海尔智家股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。