文本生成方法技术

技术编号:39490908 阅读:8 留言:0更新日期:2023-11-24 11:13
本发明专利技术提供一种文本生成方法

【技术实现步骤摘要】
文本生成方法、装置、冰箱及存储介质


[0001]本专利技术涉及计算机
,具体地涉及一种文本生成方法

装置

冰箱及存储介质


技术介绍

[0002]自从数据

算力和算法助力
AI
各项核心技术的快速发展及应用落地,深度学习在智能电器领域被广泛应用,其中数据离不开语音

文本

图像

视频等多源异构数据

但是当前当前智能制冷设备文本生成未考虑如何获取更加有效的文本特征

模型的鲁棒性及稳定性,难以构建更加有效的深度融合模型


技术实现思路

[0003]本专利技术的目的在于提供一种文本生成方法

装置

冰箱及存储介质

[0004]本专利技术提供一种文本生成方法,其特征在于,包括步骤:
[0005]获取多模态数据,并对所述多模态数据进行预处理,所述多模态数据至少包括实时语音数据

实时文本数据

实时音视频数据;
[0006]转写所述实时语音数据为语音文本数据;
[0007]转写所述实时音视频数据为图像文本数据;
[0008]将所述语音文本数据

图像文本数据

实时文本数据通过变分自编码器进行文本数据编码;
[0009]完成所述文本数据的生成器模型训练,并将文本进行序列化;
[0010]通过所述生成器模型获得生成文本,将所述语音文本数据

图像文本数据

实时文本数据作为真实文本数据和所述生成文本数据进行对抗性训练;
[0011]根据输入数据,计算所述生成文本匹配结果;
[0012]输出所述生成文本

[0013]作为本专利技术的进一步改进,所述转写所述实时语音数据为语音文本数据,具体包括:
[0014]提取所述实时语音数据特征,得到语音特征;
[0015]将所述语音特征输入语音识别卷积神经网络得到输出文本数据;
[0016]将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐;
[0017]将所述输出文本数据经全连接层组合后,输出至分类函数计算得分得到语音文本数据

[0018]作为本专利技术的进一步改进,所述转写所述实时语音数据为语音文本数据,还包括步骤:
[0019]基于注意力机制,获取所述输出文本数据局部关键特征

[0020]作为本专利技术的进一步改进,所述将所述语音特征向量输入语音识别卷积神经网络得到输出文本数据,具体包括:
[0021]将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据

[0022]作为本专利技术的进一步改进,所述转写所述实时音视频数据为图像文本数据,具体包括:
[0023]分离语音数据和视频数据,将视频图像帧数据输入
3D
卷积神经网络得到图像文本数据,
[0024]将所述图像文本数据序列通过连接时序分类方法与所述图像特征序列对齐;
[0025]将所述图像文本数据经全连接层组合后,输出至分类函数计算得分得到输出数据

[0026]作为本专利技术的进一步改进,还包括通过基于时空和长距离依赖特征的蒸馏扩散模型进行图像语义识别,具体包括:
[0027]蒸馏扩散深度融合模型训练好将教师模型引入一个时间和空间连续学生模型,得到与教师模型具有相同参数的学生模型;
[0028]将蒸馏模型转为离散时间步且步数短的学生模型,重复进行上述步骤,直到将教师模型蒸馏为学生模型的一半步数即
N/2。
[0029]作为本专利技术的进一步改进,所述多模态数据还包括历史文本数据,所述历史文本数据至少包括用户的历史评论和偏好文本数据

[0030]作为本专利技术的进一步改进,所述将所述语音文本数据

图像文本数据

实时文本数据通过变分自编码器进行文本数据编码,具体包括:
[0031]将所述将所述语音文本数据

图像文本数据

实时文本数据通过带有
Key

Value
记忆力键值模块功能的
Transformer
模型进行文本自编码

[0032]作为本专利技术的进一步改进,所述将所述语音文本数据

图像文本数据

实时文本数据通过变分自编码器进行文本数据编码,还包括:
[0033]增加噪声数据,将所述噪声数据

所述语音文本数据

图像文本数据

实时文本数据通过变分自编码器进行文本数据编码

[0034]作为本专利技术的进一步改进,在所述通过所述生成器模型获得生成文本,将所述语音文本数据

图像文本数据

实时文本数据作为真实文本数据和所述生成文本数据进行对抗性训练,之后还包括:
[0035]对所述生成文本和对抗能力的语义特征进行最大化池化运算

[0036]作为本专利技术的进一步改进,所述根据输入数据,计算所述生成文本匹配结果,具体包括:
[0037]在完成模型训练后,根据输入的数据,得到输出的特征向量,将特征向量经全连接层组合后,输出至自注意力机制
Softmax
函数,计算得到生成文本的语义关系量化结果

[0038]作为本专利技术的进一步改进,所述获取多模态数据,具体包括:
[0039]获取语音采集装置所采集的所述实时语音数据,和
/

[0040]获取自客户终端传输的所述实时语音数据;
[0041]获取自客户终端传输的所述实时文本数据数据;
[0042]获取语音采集装置所采集的所述实时音视频数据,和
/

[0043]获取自客户终端传输的所述实时音视频数据

[0044]作为本专利技术的进一步改进,所述输出所述生成文本,具体包括:
[0045]将所述生成文本信息转换为语音进行输出,和
/

[0046]将所述生成文本信息转换为语音传输至客户终端输出,和
/

[0047]将所述生成文本信息转换为文本进行输出,和
/

[0048]将所述生成文本信息转换为文本传输至客户终端输出

[0049]本专利技术还提供一种文本生成装置,包括:
[0050]数据获取模块,用于获取实时语音数据

实时文本数据

实时音视频数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本生成方法,其特征在于,包括步骤:获取多模态数据,并对所述多模态数据进行预处理,所述多模态数据至少包括实时语音数据

实时文本数据

实时音视频数据;转写所述实时语音数据为语音文本数据;转写所述实时音视频数据为图像文本数据;将所述语音文本数据

图像文本数据

实时文本数据通过变分自编码器进行文本数据编码;完成所述文本数据的生成器模型训练,并将文本进行序列化;通过所述生成器模型获得生成文本,将所述语音文本数据

图像文本数据

实时文本数据作为真实文本数据和所述生成文本数据进行对抗性训练;根据输入数据,计算所述生成文本匹配结果;输出所述生成文本
。2.
根据权利要求1所述的文本生成方法,其特征在于,所述转写所述实时语音数据为语音文本数据,具体包括:提取所述实时语音数据特征,得到语音特征;将所述语音特征输入语音识别卷积神经网络得到输出文本数据;将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐;将所述输出文本数据经全连接层组合后,输出至分类函数计算得分得到语音文本数据
。3.
根据权利要求2所述的文本生成方法,其特征在于,所述转写所述实时语音数据为语音文本数据,还包括步骤:基于注意力机制,获取所述输出文本数据局部关键特征
。4.
根据权利要求3所述的文本生成方法,其特征在于,所述将所述语音特征向量输入语音识别卷积神经网络得到输出文本数据,具体包括:将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据
。5.
根据权利要求1所述的文本生成方法,其特征在于,所述转写所述实时音视频数据为图像文本数据,具体包括:分离语音数据和视频数据,将视频图像帧数据输入
3D
卷积神经网络得到图像文本数据,将所述图像文本数据序列通过连接时序分类方法与所述图像特征序列对齐;将所述图像文本数据经全连接层组合后,输出至分类函数计算得分得到输出数据
。6.
根据权利要求5所述的文本生成方法,其特征在于,还包括通过基于时空和长距离依赖特征的蒸馏扩散模型进行图像语义识别,具体包括:蒸馏扩散深度融合模型训练好将教师模型引入一个时间和空间连续学生模型,得到与教师模型具有相同参数的学生模型;将蒸馏模型转为离散时间步且步数短的学生模型,重复进行上述步骤,直到将教师模型蒸馏为学生模型的一半步数即
N/2。7.
根据权利要求1所述的文本生成方法,其特征在于,所述多模态数据还包括历史文本
数据,所述历史文本数据至少包括用户的历史评论和偏好文本数据
。8.
根据权利要求1所述的文本生成方法,其特征在于,所述将所述语音文本数据

图像文本数据

实时文本数据通过变分自编码器进行文本数据编码,具体包括:将所述将所述语音文本数据

图像文本数据

实时文本数据通过带有
Key

Value
记忆力键值模块功能的
Transformer
模型进行文本自编码
。9.
根据权利...

【专利技术属性】
技术研发人员:曾谁飞孔令磊张景瑞刘卫强李敏吴国章
申请(专利权)人:青岛海尔智能技术研发有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1