宠物语音翻译方法、系统、电子设备及存储介质技术方案

技术编号：44620691 阅读：5 留言：0更新日期：2025-03-17 18:19

本申请提供了宠物语音翻译方法、系统、电子设备及存储介质，其中方法，通过采集高质量的宠物叫声音频样本，提取声学特征并构建深度学习模型，实现对宠物情绪状态的准确识别。结合宠物品种、年龄等信息，能够推断宠物的意图和需求，并从语句库中选择合适的安抚语句。通过深度神经网络技术，生成与宠物叫声音色和情感相似的合成语音，实现个性化的语音交互。实现人与宠物的语音交互，通过对宠物的叫声进行转换成语音，饲主可及时、准确地获知宠物当前需求，从而更快地满足宠物的当前需求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息处理，尤其涉及宠物语音翻译方法、系统、电子设备及存储介质。

技术介绍

1、随着生活水平的提高，饲养猫、狗等宠物的家庭越来越多，饲主们愿意花更多时间与宠物互动。宠物情感状态通常通过语音、表情、动作等多种形式综合表达，从而与饲主们进行互动。宠物的叫声带有宠物想要的需求以及想要表达的情绪，饲主们通过叫声以及动作进行判断宠物的需求。

2、宠物与人之间的语言并不互通，需要通过日常的动作以及经验才能判断宠物的需求，但是由于言语不互通，饲主们会出现理解错误的情况，导致无法很好地满足宠物当前的需求。

技术实现思路

1、本申请所要解决的技术问题是由于言语不互通，饲主们会出现理解错误的情况，导致无法很好地满足宠物当前的需求。

2、为了解决上述问题，为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了宠物语音翻译方法、系统、电子设备及存储介质。

3、第一方面，本专利技术公开了一种宠物语音翻译方法，其特征在于，包括以下步骤：

4、获取宠物音频数据；所述宠物音频数据通过分布式拾音装置得到，所述分布式拾音装置包括多个拾音器，分布在宠物穿戴装置上；

5、获取环境数据，所述环境数据通过分布式环境参数传感器得到，所述分布式环境参数传感器包括多个相同或不同的传感器，多个传感器分布在所述宠物穿戴装置和/或其他环境检测器上；

6、提取宠物音频数据的声学特征，根据声学特征获取特征向量，所述特征向量包括音频数据的音频帧以及其对应的声学特征；

7、基于长短期记忆网络模型获取特征向量中的关键情绪分布情况，得到情绪状态概率分布数据；

8、结合宠物的品种以及年龄信息、情绪状态概率分布数据、环境数据，得到宠物的预测意图，生成对应所述预测意图的个性化语句。

9、优选地，所述获取宠物音频数据包括以下步骤：

10、获取宠物叫声音频样本以及相对应的行为描述与环境因素数据，将所述音频样本和相关数据存储为结构化的数据格式；

11、将音频样本转换为标准的数字音频格式，得到宠物音频数据，建立存储数据库，将宠物音频数据存储在数据库中，并建立所述数字音频格式与所述结构化数据格式的关联；

12、对宠物音频数据进行去除背景噪声的预处理，得到预处理后的宠物音频数据。

13、优选地，所述对宠物音频数据进行去除背景噪声的预处理，得到预处理后的宠物音频数据，具体包括以下步骤：

14、采用谱减法对宠物音频数据进行处理，通过估计背景噪声谱，从原始音频谱中减去估计的背景噪声谱，得到降噪后的音频样本；

15、对降噪后的音频样本进行小波变换，将音频信号从时域转换到小波域；

16、在小波域中，根据预设的关键频率范围，增强属于该范围内的小波系数，同时抑制非关键频率范围内的系数；

17、通过小波逆变换，将增强后的小波系数从小波域转换回时域，得到预处理后的宠物音频数据。

18、优选地，所述提取宠物音频数据的声学特征，所述声学特征基于声音调与情绪状态关联集群数据得到特征向量，具体包括以下步骤：

19、对预处理后的音频样本进行分帧处理，得到音频帧序列；

20、针对音频帧序列中每一个音频帧，通过快速傅里叶变换将其转换到频域，得到频域信号；

21、根据频域信号计算每一个音频帧的声学特征，将每一个音频帧组合成特征向量，形成音频样本的特征向量序列；

22、采用支持向量机对特征向量序列进行分类，判断每一帧所属的叫声音调类别；

23、通过隐马尔可夫模型对叫声音调类别序列进行建模，得到反映整个音频样本情绪状态的隐状态序列；

24、根据隐状态序列确定音频样本所表达的整体情绪，得到反映音频样本中的情绪识别结果。

25、优选地，所述基于长短期记忆网络模型获取声学特征中的关键情绪分布情况，得到情绪状态概率分布数据；所述长短期记忆网络模型由特征向量结合注意力机制构造，具体包括以下步骤：

26、根据特征向量，构建长短期记忆网络模型，设置模型的输入层、隐藏层和输出层；

27、在模型中引入注意力机制，通过注意力权重矩阵，加强模型对关键情绪特征的捕捉能力；

28、训练长短期记忆网络模型，利用训练数据集对模型进行参数优化，提高模型的情绪识别准确率；

29、在模型的输出层，采用softmax函数将模型的输出转化为情绪状态的概率分布；

30、根据概率分布，判断音频样本所对应的情绪状态，选取概率最大的情绪作为识别结果。

31、优选地，结合宠物的品种以及年龄信息、情绪状态概率分布数据、环境数据，得到宠物的预测意图，生成对应所述预测意图的个性化语句，具体包括以下步骤：

32、构造意图预测模型，结合宠物的品种以及年龄信息、情绪状态概率分布数据、环境数据，获取宠物的预测意图；

33、根据宠物的预测意图，从预构造的语句库内挑选对应的语句集合，生成对应所述预测意图的个性化语句。

34、优选地，构造意图预测模型，结合宠物的品种以及年龄信息、情绪状态概率分布数据、环境数据，获取宠物的预测意图，具体包括以下步骤：

35、将情绪状态概率分布和环境传感器数据作为输入，通过门控循环单元模型进行特征提取和信息融合；

36、在门控循环单元模型中，根据输入数据的特征，动态调整模型的参数和权重，实现对宠物意图和需求的自适应映射；

37、通过模型训练和优化，不断提高宠物意图和需求判断的准确性，根据输出结果确定宠物的具体需求。

38、第二方面，本专利技术公开了一种宠物语音翻译系统，其包括上述任一项所述的宠物语音翻译方法。

39、第三方面，本专利技术公开了一种电子设备，其包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

40、存储器，用于存放计算机程序；

41、处理器，用于执行存储器上所存放的程序时，实现所述的宠物语音翻译方法的步骤。

42、第四方面，本专利技术公开了一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述的宠物语音翻译方法的步骤。

43、本申请提供的上述技术方案与现有技术相比具有如下优点：

44、本申请提供的宠物语音翻译方法、系统、电子设备及存储介质，针对方法，通过采集高质量的宠物叫声音频样本，提取声学特征并构建深度学习模型，实现对宠物情绪状态的准确识别。结合宠物品种、年龄等信息，能够推断宠物的意图和需求，并从语句库中选择合适的安抚语句。通过深度神经网络技术，生成与宠物叫声音色和情感相似的合成语音，实现个性化的语音交互。实现人与宠物的语音交互，通过对宠物的叫声进行转换成语音，饲主可及时、准确地获知宠物当前需求，从而更快地满足宠物的当前需求。

本文档来自技高网...

【技术保护点】

1.一种宠物语音翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的宠物语音翻译方法，其特征在于，所述获取宠物音频数据包括以下步骤：

3.根据权利要求2所述的宠物语音翻译方法，其特征在于，所述对宠物音频数据进行去除背景噪声的预处理，得到预处理后的宠物音频数据，具体包括以下步骤：

4.根据权利要求1所述的宠物语音翻译方法，其特征在于，所述提取宠物音频数据的声学特征，所述声学特征基于声音调与情绪状态关联集群数据得到特征向量，具体包括以下步骤：

5.根据权利要求1所述的宠物语音翻译方法，其特征在于，所述基于长短期记忆网络模型获取声学特征中的关键情绪分布情况，得到情绪状态概率分布数据；所述长短期记忆网络模型由特征向量结合注意力机制构造，具体包括以下步骤：

6.根据权利要求1所述的宠物语音翻译方法，其特征在于，结合宠物的品种以及年龄信息、情绪状态概率分布数据、环境数据，得到宠物的预测意图，生成对应所述预测意图的个性化语句，具体包括以下步骤：

7.根据权利要求1所述的宠物语音翻译方法，其特征在于，构造意图预测模

8.一种宠物语音翻译系统，其特征在于，包括上述权利要求1-7任一项所述的宠物语音翻译方法。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述权利要求1-7任一项所述的宠物语音翻译方法的步骤。

...

【技术特征摘要】

1.一种宠物语音翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的宠物语音翻译方法，其特征在于，所述获取宠物音频数据包括以下步骤：

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员：伏三才，李华强，
申请(专利权)人：深圳市鹏力凯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人