音频数据的生成方法及装置、存储介质、电子设备制造方法及图纸

技术编号：44769984 阅读：3 留言：0更新日期：2025-03-26 12:50

本公开实施例是关于一种音频数据的生成方法及装置、存储介质、电子设备，涉及大数据处理技术领域，该方法包括：基于预设的纲要抽取模型抽取原始文本内容中包括的原始文本纲要，并根据所述原始文本纲要对所述原始文本内容进行分段处理，得到原始文本段落；将所述原始文本段落以及原始文本纲要，输入至预设的内容生成大模型中，得到与所述原始文本段落对应的段落解读信息；基于预设的音频转换模型对所述段落解读信息进行音频转换，得到段落音频数据，并对所述段落音频数据进行整合，得到与所述原始文本内容对应的音频数据。本公开提高了音频数据的生成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施方式涉及大数据处理，更具体地，本公开的实施方式涉及一种音频数据的生成方法、音频数据的生成装置、计算机可读存储介质以及电子设备。

技术介绍

1、本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、目前，业内制作的速读类播客节目，是通过人工制作并上传的。但是，该方式存在效率较低以及无法快速跟随热点的问题。

技术实现思路

1、但是，在相关的技术方案中，一方面，通过人工制作的方式生成相应的音频数据存在生成效率较低的问题；另一方面，通过人工制作的方式无法快速跟随热点信息，进而使得所得到的音频数据的访问量较低。

2、为此，非常需要一种改进的音频数据的生成方法，以基于预设的纲要抽取模型抽取原始文本内容中包括的原始文本纲要，并根据原始文本纲要对原始文本内容进行分段处理，得到原始文本段落；并将原始文本段落以及原始文本纲要，输入至预设的内容生成大模型中，得到与原始文本段落对应的段落解读信息；在基于预设的音频转换模型对段落解读信息进行音频转换，得到段落音频数据，并对段落音频数据进行整合，得到与原始文本内容对应的音频数据，从而可以在提高音频数据的生成效率的基础上使得所得到的音频数据可以紧跟热点信息，进而达到提高音频数据的访问量的目的。

3、在本上下文中，本公开的实施方式期望提供一种音频数据的生成方法、音频数据的生成装置、计算机可读存储介质以及电子设备。

4、根据本公开的一个方面，提

5、基于预设的纲要抽取模型抽取原始文本内容中包括的原始文本纲要，并根据所述原始文本纲要对所述原始文本内容进行分段处理，得到原始文本段落；

6、将所述原始文本段落以及原始文本纲要，输入至预设的内容生成大模型中，得到与所述原始文本段落对应的段落解读信息；

7、基于预设的音频转换模型对所述段落解读信息进行音频转换，得到段落音频数据，并对所述段落音频数据进行整合，得到与所述原始文本内容对应的音频数据。

8、在本公开的一种示例性实施例中，所述预设的纲要抽取模型包括段落提取层、段落编码层以及话题抽取层；

9、其中，基于预设的纲要抽取模型抽取原始文本内容中包括的原始文本纲要，包括：

10、基于段落提取层对所述原始文本内容进行分段处理，得到多个内容分段区间；

11、基于所述段落编码层对所述内容分段区间进行编码，得到子段落标识，并基于所述话题抽取层抽取所述内容分段区间中的子区间文本内容中包括的子区间话题词；

12、根据所述内容分段区间、子段落标识以及子区间话题词，生成子段落纲要，并根据所述子段落纲要生成所述原始文本纲要。

13、在本公开的一种示例性实施例中，所述话题抽取层包括第一动态权重融合bert层以及第一全连接层；

14、其中，基于所述话题抽取层抽取所述内容分段区间中的子区间文本内容中包括的子区间话题词，包括：

15、基于所述第一动态权重融合bert层，计算所述子区间文本内容的语义文本向量以及每一个语义文本向量对所述子区间文本内容的重要程度，并根据所述语义文本向量以及所述重要程度得到第一编码向量；

16、基于第一全连接层对所述第一编码向量进行计算，得到所述子区间文本内容中所包括的每一个字符属于子区间话题词的置信度，并根据所述置信度是否大于第一预设阈值判断所述子区间话题词的起始位置以及终止位置；

17、利用第一预设标识对所述子区间话题词的起始位置以及终止位置进行标记，并截取具有第一预设标识标记的位置对应的字符，以得到子区间文本内容中包括的子区间话题词。

18、在本公开的一种示例性实施例中，所述第一动态权重融合bert层中包括多个transformer模型；

19、其中，基于所述第一动态权重融合bert层，计算所述子区间文本内容的语义文本向量以及每一个语义文本向量对所述子区间文本内容的重要程度，并根据所述语义文本向量以及所述重要程度得到第一编码向量，包括：

20、对所述子区间文本内容进行词嵌入，得到所述子区间文本内容的字嵌入向量、字嵌入矩阵以及位置嵌入矩阵；

21、根据所述字嵌入向量、字嵌入矩阵以及位置嵌入矩阵生成子区间嵌入向量，并将所述子区间嵌入向量输入至第一个transformer模型，得到第一文本语义向量；

22、将所述第一文本语义向量输入至其他transformer模型，得到与其他transformer模型对应的文本语义向量；其中，在所述其他transformer模型中，上一个transformer模型的输出，是与其对应的下一个transformer模型的输入；

23、计算各所述transformer模型对所述子区间文本内容的重要程度，并根据各所述重要程度以及所述子区间嵌入向量、各所述文本语义向量，得到所述第一编码向量。

24、在本公开的一种示例性实施例中，根据各所述重要程度以及所述子区间嵌入向量、各所述文本语义向量，得到所述第一编码向量，包括：

25、对各所述重要程度进行拼接，得到重要程度拼接结果，并对所述重要程度拼接结果进行归一化处理，得到归一化处理后的重要程度；

26、对归一化处理后的重要程度以及所述子区间嵌入向量、各所述文本语义向量进行加权求和，得到所述第一编码向量。

27、在本公开的一种示例性实施例中，根据所述原始文本纲要对所述原始文本内容进行分段处理，得到原始文本段落，包括：

28、对所述原始文本纲要进行解析，得到多个子段落纲要，并根据各所述子段落纲要中包括的内容分段区间的起始字符位置以及终止字符位置，确定该内容分段区间在原始文本内容中所处的区间位置；

29、基于所述区间位置，从所述原始文本内容中提取与所述内容分段区间对应的子区间文本内容以得到子文本段落，并根据所述子文本段落以及所述子段落纲要中包括的子段落标识，生成所述原始文本段落。

30、在本公开的一种示例性实施例中，所述预设的内容生成大模型包括嵌入映射层、编码层以及混合专家模型层；

31、其中，将所述原始文本段落以及原始文本纲要，输入至预设的内容生成大模型中，得到与所述原始文本段落对应的段落解读信息，包括：

32、根据所述原始文本段落中包括的子文本段落的子段落标识，从所述原始文本纲要中确定与该文本段落对应的子段落纲要，并根据所述子段落纲要以及与该子文本段落对应的预设的内容参数提示信息生成子段落上下文信息；

33、基于所述嵌入映射层对所述子文本段落进行词嵌入处理，得到子文本特征，并对所述子段落上下文信息进行嵌入映射处理，得到子文本段落的上下文标志序列；

34、基于所述编码层对所述子文本特征以及子文本段落的上下文标志序列进行编码处理，得到上下文整体表征，并基于所述混合专家模型层对子文本段落的上本文档来自技高网...

【技术保护点】

1.一种音频数据的生成方法，其特征在于，包括：

2.根据权利要求1所述的音频数据的生成方法，其特征在于，所述预设的纲要抽取模型包括段落提取层、段落编码层以及话题抽取层；

3.根据权利要求2所述的音频数据的生成方法，其特征在于，所述话题抽取层包括第一动态权重融合Bert层以及第一全连接层；

4.根据权利要求3所述的音频数据的生成方法，其特征在于，所述第一动态权重融合Bert层中包括多个Transformer模型；

5.根据权利要求4所述的音频数据的生成方法，其特征在于，根据各所述重要程度以及所述子区间嵌入向量、各所述文本语义向量，得到所述第一编码向量，包括：

6.根据权利要求1所述的音频数据的生成方法，其特征在于，根据所述原始文本纲要对所述原始文本内容进行分段处理，得到原始文本段落，包括：

7.根据权利要求1所述的音频数据的生成方法，其特征在于，所述预设的内容生成大模型包括嵌入映射层、编码层以及混合专家模型层；

8.一种音频数据的生成装置，其特征在于，包括：

9.一种计算机可读存储介质，

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种音频数据的生成方法，其特征在于，包括：

2.根据权利要求1所述的音频数据的生成方法，其特征在于，所述预设的纲要抽取模型包括段落提取层、段落编码层以及话题抽取层；

3.根据权利要求2所述的音频数据的生成方法，其特征在于，所述话题抽取层包括第一动态权重融合bert层以及第一全连接层；

4.根据权利要求3所述的音频数据的生成方法，其特征在于，所述第一动态权重融合bert层中包括多个transformer模型；

5.根据权利要求4所述的音频数据的生成方法，其特征在于，根据各所述重要程度以及所述子区间嵌入向量、各所述文本语义向量...

【专利技术属性】
技术研发人员：刘佳林，李兆明，陈锦海，
申请(专利权)人：杭州网易云音乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人