有声读物的生成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：34250935 阅读：93 留言：0更新日期：2022-07-24 11:31

本申请公开了一种有声读物的生成方法、装置、设备、存储介质和程序产品，涉及人工智能技术领域。所述方法包括：显示目标读物对应的配音员设置界面，在配音员设置界面中显示目标读物中包含的多个角色以及多个候选的配音员；响应于针对角色的配音员设置操作，在配音员设置界面中显示为角色设置的配音员；响应于设置完成操作，显示配音结果展示界面，在配音结果展示界面中显示目标读物的至少一个语句，以及语句对应的角色；响应于针对目标读物的播放操作，播放以目标配音员生成的目标读物中目标语句的音频内容。本申请使得有声读物中的声音更具有多样性，提高了有声读物的配音质量。提高了有声读物的配音质量。提高了有声读物的配音质量。

Generation method, device, equipment, storage medium and program product of Audiobooks

全部详细技术资料下载

【技术实现步骤摘要】
有声读物的生成方法、装置、设备、存储介质及程序产品

[0001]本申请涉及人工智能
，特别涉及一种有声读物的生成方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]通过对小说进行配音生成有声小说后，方便了人们对小说内容的阅读。
[0003]相比于传统的人工配音生成有声小说的方式，为了减少有声小说的制作成本，在相关技术中，提供了一种自动化生成有声小说的方式。在该相关技术中，采用文本转语音的技术，将小说的文本数据转换为音频内容，从而自动化生成有声小说。
[0004]然而，这种方式得到的有声小说不仅音色单一，而且质量不佳。

技术实现思路

[0005]本申请实施例提供了一种有声读物的生成方法、装置、设备、存储介质及程序产品，可以解决有声读物不仅音色单一，而且质量不佳的技术问题。所述技术方案如下：
[0006]根据本申请实施例的一个方面，提供了一种有声读物的生成方法，所述方法包括：
[0007]显示目标读物对应的配音员设置界面，在所述配音员设置界面中显示所述目标读物中包含的多个角色以及多个候选的配音员；
[0008]响应于针对所述角色的配音员设置操作，在所述配音员设置界面中显示为所述角色设置的配音员；其中，为所述目标读物中至少两个不同的角色设置的配音员不相同；
[0009]响应于设置完成操作，显示配音结果展示界面，在所述配音结果展示界面中显示所述目标读物的至少一个语句，以及所述语句对应的角色；
[0010]响应于针对所...

【技术保护点】

【技术特征摘要】
1.一种有声读物的生成方法，其特征在于，所述方法包括：显示目标读物对应的配音员设置界面，在所述配音员设置界面中显示所述目标读物中包含的多个角色以及多个候选的配音员；响应于针对所述角色的配音员设置操作，在所述配音员设置界面中显示为所述角色设置的配音员；其中，为所述目标读物中至少两个不同的角色设置的配音员不相同；响应于设置完成操作，显示配音结果展示界面，在所述配音结果展示界面中显示所述目标读物的至少一个语句，以及所述语句对应的角色；响应于针对所述目标读物的播放操作，播放以目标配音员生成的所述目标读物中目标语句的音频内容，所述目标配音员是针对所述目标语句对应的角色所设置的配音员。2.根据权利要求1所述的方法，其特征在于，所述配音员设置界面中还显示有针对所述角色初始化设置的配音员，所述初始化设置的配音员是基于所述角色的风格自动设置的配音员；所述响应于针对所述角色的配音员设置操作，在所述配音员设置界面中显示为所述角色设置的配音员，包括：响应于针对所述角色的配音员设置操作，将所述初始化设置的配音员更改为重新选择的配音员，并在所述配音员设置界面中显示为所述角色重新选择的配音员。3.根据权利要求1所述的方法，其特征在于，所述显示目标读物对应的配音员设置界面之后，还包括：在所述配音员设置界面中显示用于为所述配音员设置配音参数的界面元素，所述配音参数包括以下至少一种：朗读速度、朗读音量、朗读语种、朗读情感。4.根据权利要求1所述的方法，其特征在于，所述配音结果展示界面包括章节选择区、文本展示区和角色选择区；其中，所述章节选择区用于显示所述目标读物的多个章节；所述文本展示区用于显示从所述多个章节中选择的至少一个章节所包含的语句，以及所述语句对应的角色；所述角色选择区用于显示所述选择的至少一个章节中包含的至少一个角色。5.根据权利要求1所述的方法，其特征在于，所述显示配音结果展示界面之后，还包括：响应于针对所述目标读物的配音设置操作，执行与所述配音设置操作相对应的设置行为；其中，所述设置行为包括以下至少一种：在所述目标读物的文本数据中插入停顿符、调整所述目标读物的文本数据中选定的目标词句的朗读速度、调整所述目标读物的文本数据中选定的目标词组之间的连续性、设置所述目标读物的文本数据中选定的目标多音字的读音、设置所述目标读物的文本数据中选定的目标数字符号的读法、设置所述目标读物的文本数据中选定的目标单词的读法、调整所述目标读物的文本数据中所述配音员的配音参数。6.根据权利要求1所述的方法，其特征在于，所述显示配音结果展示界面之后，还包括：响应于导出操作，显示章节选择界面，在所述章节选择界面中显示所述目标读物的多个章节；响应于针对所述多个章节中的至少一个章节的选择操作，生成所选择章节对应的音频文件。
7.根据权利要求1至6任一项所述的方法，其特征在于，所述显示目标读物对应的配音员设置界面之前，还包括：显示读物提供界面；获取在所述读物提供界面中确定的所述目标读物；获取从所述目标读物的文本数据中识别得到的所述目标读物中包含的所述多个角色。8.一种有声读物的生成方法，其特征在于，所述方法包括：获取待配音的目标读物的文本数据；基于所述目标读物的文本数据，识别所述目标读物中包含的多个角色；获取为所述角色设置的配音员；其中，为所述目标读物中至少两个不同的角色设置的配音员不相同；基于所述目标读物中各个所述角色分别对应的配音员，生成所述目标读物对应的音频文件。9.根据权利要求8所述的方法，其特征在于，所述识别所述目标读物中包含的多个角色，包括：对于所述目标读物的文本数据中包含的各个语句，识别各个所述语句中分别包含的角色；统计识别出的各个所述角色在所述目标读物中的出现次数；选择所述出现次数满足第一条件的角色，得到所述目标读物中包含的所述多个角色。10.根据权利要求9所述的方法，其特征在于，所述对于所述目标读物的文本数据中包含的各个语句，识别各个所述语句中分别包含的角色，包括：对于所述目标读物的文本数据中包含的目标语句，获取所述目标语句对应的向量表示序列；将所述向量表示序列输入至角色识别模型，通过所述角色识别模型的上下文编码器提取所述向量表示序列中的特征信息；通过所述角色识别模型的标注解码器根据所述特征信息，输出所述目标语句中各个字词分别对应的标注结果，所述标注结果用于指示所述字词的实体类别；基于所述目标语句中各个字词分别对应的标注结果，得到所述目标语句中包含的角色。11.根据权利要求8所述的方法，其特征在于，所述基于所述目标读物中各个所述角色分别对应的配音员，生成所述目标读物对应的音频文件之前，还包括：对于所述目标读物的文本数据中包含的目标语句，根据所述目标语句以及所述目标语句的上下文信息，确定所述目标语句对应的角色；其中，所述目标语句的上下文信息包括以下至少一项：位于所述目...

【专利技术属性】
技术研发人员：程龙，王砚峰，刘恺，王睿敏，周志平，方鹏，周明，林国雯，冷永才，蒋维明，史小静，陆亮，张晶晶，段文君，曾可璇，张心愿，马浩然，郎勇，段枫，谢昆，许亚东，姜鹏，朱浩，陆飞，王宁，姜伟，鹿畅，韩晓明，朱立人，赵亮，栾佳慧，宋启亮，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人