有声读物的生成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:34250935 阅读:93 留言:0更新日期:2022-07-24 11:31
本申请公开了一种有声读物的生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域。所述方法包括:显示目标读物对应的配音员设置界面,在配音员设置界面中显示目标读物中包含的多个角色以及多个候选的配音员;响应于针对角色的配音员设置操作,在配音员设置界面中显示为角色设置的配音员;响应于设置完成操作,显示配音结果展示界面,在配音结果展示界面中显示目标读物的至少一个语句,以及语句对应的角色;响应于针对目标读物的播放操作,播放以目标配音员生成的目标读物中目标语句的音频内容。本申请使得有声读物中的声音更具有多样性,提高了有声读物的配音质量。提高了有声读物的配音质量。提高了有声读物的配音质量。

Generation method, device, equipment, storage medium and program product of Audiobooks

【技术实现步骤摘要】
有声读物的生成方法、装置、设备、存储介质及程序产品


[0001]本申请涉及人工智能
,特别涉及一种有声读物的生成方法、装 置、设备、存储介质及程序产品。

技术介绍

[0002]通过对小说进行配音生成有声小说后,方便了人们对小说内容的阅读。
[0003]相比于传统的人工配音生成有声小说的方式,为了减少有声小说的制作成 本,在相关技术中,提供了一种自动化生成有声小说的方式。在该相关技术中, 采用文本转语音的技术,将小说的文本数据转换为音频内容,从而自动化生成有 声小说。
[0004]然而,这种方式得到的有声小说不仅音色单一,而且质量不佳。

技术实现思路

[0005]本申请实施例提供了一种有声读物的生成方法、装置、设备、存储介质及程 序产品,可以解决有声读物不仅音色单一,而且质量不佳的技术问题。所述技术 方案如下:
[0006]根据本申请实施例的一个方面,提供了一种有声读物的生成方法,所述方法 包括:
[0007]显示目标读物对应的配音员设置界面,在所述配音员设置界面中显示所述 目标读物中包含的多个角色以及多个候选的配音员;
[0008]响应于针对所述角色的配音员设置操作,在所述配音员设置界面中显示为 所述角色设置的配音员;其中,为所述目标读物中至少两个不同的角色设置的配 音员不相同;
[0009]响应于设置完成操作,显示配音结果展示界面,在所述配音结果展示界面中 显示所述目标读物的至少一个语句,以及所述语句对应的角色;
[0010]响应于针对所述目标读物的播放操作,播放以目标配音员生成的所述目标 读物中目标语句的音频内容,所述目标配音员是针对所述目标语句对应的角色 所设置的配音员。
[0011]根据本申请实施例的一个方面,提供了一种有声读物的生成方法,所述方法 包括:
[0012]获取待配音的目标读物的文本数据;
[0013]基于所述目标读物的文本数据,识别所述目标读物中包含的多个角色;
[0014]获取为所述角色设置的配音员;其中,为所述目标读物中至少两个不同的角 色设置的配音员不相同;
[0015]基于所述目标读物中各个所述角色分别对应的配音员,生成所述目标读物 对应的音频文件。
[0016]根据本申请实施例的一个方面,提供了一种配音结果的生成装置,所述装置 包括:
[0017]设置界面显示模块,用于显示目标读物对应的配音员设置界面,在所述配音 员设
置界面中显示所述目标读物中包含的多个角色以及多个候选的配音员;
[0018]配音员设置模块,用于响应于针对所述角色的配音员设置操作,在所述配音 员设置界面中显示为所述角色设置的配音员;其中,为所述目标读物中至少两个 不同的角色设置的配音员不相同;
[0019]配音结果显示模块,用于响应于设置完成操作,显示配音结果展示界面,在 所述配音结果展示界面中显示所述目标读物的至少一个语句,以及所述语句对 应的角色;
[0020]配音内容播放模块,用于响应于针对所述目标读物的播放操作,播放以目标 配音员生成的所述目标读物中目标语句的音频内容,所述目标配音员是针对所 述目标语句对应的角色所设置的配音员。
[0021]根据本申请实施例的一个方面,提供了一种配音结果的生成装置,所述装置 包括:
[0022]数据获取模块,用于获取待配音的目标读物的文本数据;
[0023]角色识别模块,用于基于所述目标读物的文本数据,识别所述目标读物中包 含的多个角色;
[0024]配音设置模块,用于获取为所述角色设置的配音员;其中,为所述目标读物 中至少两个不同的角色设置的配音员不相同;
[0025]文件生成模块,用于基于所述目标读物中各个所述角色分别对应的配音员, 生成所述目标读物对应的音频文件。
[0026]根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包 括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集 或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述 处理器加载并执行以实现上述有声读物的生成方法。
[0027]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储 介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指 令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述有 声读物的生成方法。
[0028]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程 序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器 从所述计算机可读存储介质中读取并执行所述计算机指令,以实现上述有声读 物的生成方法。
[0029]本申请实施例提供的技术方案可以包括如下有益效果:
[0030]通过在配音员设置界面中显示目标读物包含的多个角色以及多个候选的配 音员,选择至少两个不同的配音员对该多个角色进行配音,生成配音结果并展示 在配音结果展示界面中,并可以试听上述配音结果。本申请采用多个配音员针对 同一目标读物中的不同角色进行配音,由于不同的配音员可以产生不同音色的 声音,因此这种方式生成的有声读物不仅仅是单一配音员(或者说单一音色), 使得有声读物中的声音更具有多样性,提高了有声读物的配音质量。
附图说明
[0031]图1是本申请一个实施例提供的方案实施环境的示意图;
[0032]图2是本申请一个实施例提供的有声读物的生成方法的流程示意图;
[0033]图3是本申请一个实施例提供的有声读物的生成方法的流程图;
[0034]图4是本申请一个实施例提供的读物提供界面的示意图;
[0035]图5是本申请一个实施例提供的配音员设置界面的示意图;
[0036]图6是本申请一个实施例提供的配音结果展示界面的示意图;
[0037]图7是本申请另一个实施例提供的有声读物的生成方法的流程图;
[0038]图8是本申请一个实施例提供的章节选择界面的示意图;
[0039]图9是本申请另一个实施例提供的有声读物的生成方法的流程图;
[0040]图10是本申请另一个实施例提供的有声读物的生成方法的流程图;
[0041]图11是本申请一个实施例提供的BERT(BidirectionalEncoderRepresentationfromTransformers,预训练的语言表征模型)的结构示意图;
[0042]图12是本申请一个实施例提供的AI(ArtificialIntelligence,人工智能)声学模型的示意图;
[0043]图13是本申请一个实施例提供的音质提取器的结构示意图;
[0044]图14是本申请一个实施例提供的旁白AI声学模型的示意图;
[0045]图15是本申请一个实施例提供的配音结果的生成装置的框图;
[0046]图16是本申请另一个实施例提供的配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种有声读物的生成方法,其特征在于,所述方法包括:显示目标读物对应的配音员设置界面,在所述配音员设置界面中显示所述目标读物中包含的多个角色以及多个候选的配音员;响应于针对所述角色的配音员设置操作,在所述配音员设置界面中显示为所述角色设置的配音员;其中,为所述目标读物中至少两个不同的角色设置的配音员不相同;响应于设置完成操作,显示配音结果展示界面,在所述配音结果展示界面中显示所述目标读物的至少一个语句,以及所述语句对应的角色;响应于针对所述目标读物的播放操作,播放以目标配音员生成的所述目标读物中目标语句的音频内容,所述目标配音员是针对所述目标语句对应的角色所设置的配音员。2.根据权利要求1所述的方法,其特征在于,所述配音员设置界面中还显示有针对所述角色初始化设置的配音员,所述初始化设置的配音员是基于所述角色的风格自动设置的配音员;所述响应于针对所述角色的配音员设置操作,在所述配音员设置界面中显示为所述角色设置的配音员,包括:响应于针对所述角色的配音员设置操作,将所述初始化设置的配音员更改为重新选择的配音员,并在所述配音员设置界面中显示为所述角色重新选择的配音员。3.根据权利要求1所述的方法,其特征在于,所述显示目标读物对应的配音员设置界面之后,还包括:在所述配音员设置界面中显示用于为所述配音员设置配音参数的界面元素,所述配音参数包括以下至少一种:朗读速度、朗读音量、朗读语种、朗读情感。4.根据权利要求1所述的方法,其特征在于,所述配音结果展示界面包括章节选择区、文本展示区和角色选择区;其中,所述章节选择区用于显示所述目标读物的多个章节;所述文本展示区用于显示从所述多个章节中选择的至少一个章节所包含的语句,以及所述语句对应的角色;所述角色选择区用于显示所述选择的至少一个章节中包含的至少一个角色。5.根据权利要求1所述的方法,其特征在于,所述显示配音结果展示界面之后,还包括:响应于针对所述目标读物的配音设置操作,执行与所述配音设置操作相对应的设置行为;其中,所述设置行为包括以下至少一种:在所述目标读物的文本数据中插入停顿符、调整所述目标读物的文本数据中选定的目标词句的朗读速度、调整所述目标读物的文本数据中选定的目标词组之间的连续性、设置所述目标读物的文本数据中选定的目标多音字的读音、设置所述目标读物的文本数据中选定的目标数字符号的读法、设置所述目标读物的文本数据中选定的目标单词的读法、调整所述目标读物的文本数据中所述配音员的配音参数。6.根据权利要求1所述的方法,其特征在于,所述显示配音结果展示界面之后,还包括:响应于导出操作,显示章节选择界面,在所述章节选择界面中显示所述目标读物的多个章节;响应于针对所述多个章节中的至少一个章节的选择操作,生成所选择章节对应的音频文件。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述显示目标读物对应的配音员设置界面之前,还包括:显示读物提供界面;获取在所述读物提供界面中确定的所述目标读物;获取从所述目标读物的文本数据中识别得到的所述目标读物中包含的所述多个角色。8.一种有声读物的生成方法,其特征在于,所述方法包括:获取待配音的目标读物的文本数据;基于所述目标读物的文本数据,识别所述目标读物中包含的多个角色;获取为所述角色设置的配音员;其中,为所述目标读物中至少两个不同的角色设置的配音员不相同;基于所述目标读物中各个所述角色分别对应的配音员,生成所述目标读物对应的音频文件。9.根据权利要求8所述的方法,其特征在于,所述识别所述目标读物中包含的多个角色,包括:对于所述目标读物的文本数据中包含的各个语句,识别各个所述语句中分别包含的角色;统计识别出的各个所述角色在所述目标读物中的出现次数;选择所述出现次数满足第一条件的角色,得到所述目标读物中包含的所述多个角色。10.根据权利要求9所述的方法,其特征在于,所述对于所述目标读物的文本数据中包含的各个语句,识别各个所述语句中分别包含的角色,包括:对于所述目标读物的文本数据中包含的目标语句,获取所述目标语句对应的向量表示序列;将所述向量表示序列输入至角色识别模型,通过所述角色识别模型的上下文编码器提取所述向量表示序列中的特征信息;通过所述角色识别模型的标注解码器根据所述特征信息,输出所述目标语句中各个字词分别对应的标注结果,所述标注结果用于指示所述字词的实体类别;基于所述目标语句中各个字词分别对应的标注结果,得到所述目标语句中包含的角色。11.根据权利要求8所述的方法,其特征在于,所述基于所述目标读物中各个所述角色分别对应的配音员,生成所述目标读物对应的音频文件之前,还包括:对于所述目标读物的文本数据中包含的目标语句,根据所述目标语句以及所述目标语句的上下文信息,确定所述目标语句对应的角色;其中,所述目标语句的上下文信息包括以下至少一项:位于所述目...

【专利技术属性】
技术研发人员:程龙王砚峰刘恺王睿敏周志平方鹏周明林国雯冷永才蒋维明史小静陆亮张晶晶段文君曾可璇张心愿马浩然郎勇段枫谢昆许亚东姜鹏朱浩陆飞王宁姜伟鹿畅韩晓明朱立人赵亮栾佳慧宋启亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1