一种结构化画本的生成方法和生成系统技术方案

技术编号:37626565 阅读:12 留言:0更新日期:2023-05-18 12:18
本发明专利技术提出了一种结构化画本的生成方法,输入小说的文本片段,对文本片段进行段落结构化解析,生成结构化画本;所述段落结构化解析为通过对输入文本片段进行角色对话识别、文本情感识别、特效场景挖掘,将所述文本片段转换为具有多角色、多情感、多场景的文本对话脚本。本发明专利技术从角色挖掘,音色匹配,章节结构化到特效场景识别,通过自然语言处理技术实现小说文本画本创建的全自动化处理,相比较当前人工创建画本的过程更加高效,时间上提效30倍。时间上提效30倍。时间上提效30倍。

【技术实现步骤摘要】
一种结构化画本的生成方法和生成系统


[0001]本专利技术属于语音合成
,涉及结构化画本的生成方法和生成系统。

技术介绍

[0002]有声书市场近3年逐年递增35%+,仍处于增长期;各在线阅读平台重点布局有声书赛道,通过更优质、更多种类的有声内容,吸引并培养用户习惯,拓展市场。目前听书市场竞争激烈,各类听书软件百花齐放。首先,听书系统借助于声音的穿透力分享知识,让用户充分利用碎片化时间。其次,听书系统借助于抑扬顿挫的语调,将枯燥的文字转化为生动鲜活的声音朗读,使得用户像听音乐一样的去听书。尽管目前听书系统技术已经很成熟了,但是如何让用户沉浸在小说中的情节,使其更加有画面感和代入感,成为了提升用户使用体验的一个难题。
[0003]目前业界没有类似技术或实现方案。常规的方法是依赖人工揣摩小说中人物的情感、动作等,结合不同的场景进行真人配音。例如:在寒风呼啸的晚上,她独自一人在房间哭泣。此处的配音为在寒风呼啸的背景音之下,女主伴随着哭泣声发声。
[0004]例如在现有的语音合成领域当中,例如中国专利技术专利CN109523986A中语音合成方法的步骤如下所述:
[0005]1.通过获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;
[0006]2.对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;
[0007]3.根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,再人工确认;
[0008]4.根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音。
[0009]现有方法的主要问题在于:
[0010](1)音色筛选:角色挖掘后需要人为在候选音色中筛选出合适音色,周期较长;
[0011](2)文本预处理:未对文本做前置处理,对一些错别字等做修正;
[0012](3)音频合成单一:文本合成缺乏情感、特效、场景等特点;
[0013](4)制作周期较长,成本高:由于需要人工配音,因而周期较长,产出的配音量少且耗费大;
[0014](5)复杂低效:由于需要结合人物动作、情感以及当前场景针对性的进行配音,首先要人工识别出小说中关于当前场景的描述,以及有关人物的动作或者情感的词汇,其次针对性的添加符合场景描述的背景音。当人物产生某种动作或者情感波动时,真人朗读也随之针对性地做出改变。这样一来,整个流程就变得异常复杂。

技术实现思路

[0015]为了解决现有技术存在的不足,本专利技术的目的是提供一种结构化画本的生成方法,通过对输入文本片段进行角色对话识别、文本情感识别、特效场景挖掘,将文本片段转换为具有多角色、多情感、多场景的文本对话脚本,生成结构化画本。其中,通过角色对话依存关系及指代消解文本处理,将章节改编成对话;利用Bert构建文本情感分类模型实现文本细颗粒度情感分类,赋予文本情感属性;通过关键词及场景语义提取对小说片段中存在特效的文字位置,最终创建结构化画本,包括如下方法:
[0016]步骤A、对预先获得的包含角色和情节正文的格式化文本进行章节拆解,并改编成对话;
[0017]步骤B、对步骤A中获得的已改编成对话的文本内容进行对话角色识别、文本情感识别、特效场景识别处理;
[0018]步骤C、生成最终的结构化画本。
[0019]本专利技术中所述指代消解文本处理是指基于小说章节维度,通过语义规则将章节文本拆分为若干段句子,再将对话句与其对应上下文信息输入到基于语义的角色对话关系匹配模型中,为每一条对话句匹配正确的对话主体,模型还可以对人物角色的多个名称(例如:人称代词,人物外号等)进行识别,最终可使多个称谓消解为唯一角色名,简化角色音色匹配的复杂度。
[0020]本专利技术中所述基于语义的角色对话关系匹配模型是指:基于bert实现的一种多项选择模型,输入当前句子文本,句子所在上下文片段以及上下文中可能出现的角色列表。并将列表中的角色分别与上下文片段进行拼接,多个拼接数据组成一条输入数据输入到bert模型中。最终对多条拼接段进行分类任务达到匹配角色对话依存关系的目的。
[0021]所述文本情感分类模型是指基于bert的文本情感分类模型,在小说章节文本拆分的基础上,输入对话中心句及上下文信息,进行多种情感类别的分类任务,目前的文本情感识别模型多采用评判正负情感分高低的模型,为了达到体现多样化情感的目的,本专利技术采用平静,生气,高兴,伤心,惊讶,恐惧,叙述等7种情感类别,对小说中人物对话片段进行情感类型的识别,使音频中能附加多样化的情感色彩。
[0022]本专利技术步骤A中,所述章节拆解是指将格式化文本根据对话拆解策略,拆解成角色对话句与叙述句;
[0023]所述角色对话句指文本中人物间对话的句子,文本其余部分表述为叙述句;
[0024]所述对话拆解策略指根据作者写作习惯与文本正则匹配的方式对文本进行拆分的策略。
[0025]步骤B中,所述对话角色识别是指通过对话角色识别模块将章节正文中的对话文本映射到对应的角色中;所述对话角色识别模块中的模型结构采用语言模型结构,构建了基于上下文的角色决策结构。
[0026]本专利技术所述语言模型结构指基于bert构建的深度学习语言模型,输入对话文本,识别对话人物;所述角色决策结构是指结合拆解策略与语言模型,对文本进行结构化拆解,对话角色关系识别,最终转化为结构化画本的角色决策结构。
[0027]本专利技术在构建完成角色对话识别模块模型架构后,输入样本X={X1,X2,......,Xn},Xn表示第n条数据,Xn=(Cn,Qn,[Choice1,Choice2,...,Choicem],label),m表示共有
m个候选角色名,Qn表示对话正文句子,称为中心句,Cn是中心句前后动态范围上下文片段,所述动态范围指上下文片段长短基于模型可识别字符长度L而改变,给定动态窗口范围,使Cn片段字符长度len(Cn)<L,字符过长则缩小窗口;[Choice1,Choice2,...,Choicem]为该片段内出现的角色候选,label为实际样本对应的真实角色序号;
[0028]构建模型中的训练模块,所述训练模块基于语言模型,所述语言模型为整体模型的编码部分,记作LM,训练模块的模型结构如下:
[0029]M_role=softmax(concat(Class(LM([Cn,Qn,Choice1]),...,Class(LM([Cn,Qn,Choicem]))),
[0030]其中,m表示共有m个选项,其中Class是通过LM输出当前组合文本对应的分数,concat是将多个候选答案对应的分数进行拼接,softmax得到m个类别输出;使输出结果与label进行拟合;
[0031]重复训练模块中的内容,当模型训练后的准确率达到90%的衡量指标时保存最优模型,对章节正文进行预测;
[0032]输入原文记作H={H1,H2,......,Hn},
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化画本的生成方法,其特征在于,输入小说的文本片段,对文本片段进行段落结构化解析,生成结构化画本;所述段落结构化解析为通过对输入文本片段进行角色对话识别、文本情感识别、特效场景挖掘,将所述文本片段转换为具有多角色、多情感、多场景的文本对话脚本;其中,通过角色对话依存关系及指代消解文本处理,将文本片段改编成对话;利用Bert构建文本情感分类模型实现文本细颗粒度情感分类,赋予文本情感属性;通过关键词及场景语义提取对文本片段中存在特效的文字位置,最终创建结构化画本;具体包括如下步骤:步骤A、对预先获得的包含角色和情节正文的格式化文本进行章节拆解,并改编成对话;步骤B、对步骤A中获得的已改编成对话的文本内容进行对话角色识别、文本情感识别、特效场景识别处理;步骤C、生成最终的结构化画本。2.如权利要求1所述的结构化画本的生成方法,其特征在于,步骤A中,所述章节拆解是指将格式化文本根据对话拆解策略,拆解成角色对话句与叙述句;所述角色对话句指文本中人物间对话的句子,文本其余部分表述为叙述句;所述对话拆解策略指根据作者写作习惯与文本正则匹配的方式对文本进行拆分的策略。3.如权利要求1所述的结构化画本的生成方法,其特征在于,步骤B中,所述对话角色识别是指通过对话角色识别模块将章节正文中的对话文本映射到对应的角色中;所述对话角色识别模块中的模型结构采用语言模型结构,构建了基于上下文的角色决策结构。4.如权利要求3所述的结构化画本的生成方法,其特征在于,所述语言模型结构指基于bert构建的深度学习语言模型,输入对话文本,识别对话人物;所述角色决策结构指结合拆解策略与语言模型,对文本进行结构化拆解,对话角色关系识别,最终转化为结构化画本的角色决策结构;和/或,在构建完成角色对话识别模块模型架构后,输入样本X={X1,X2,
……
,Xn},Xn表示第n条数据,Xn=(Cn,Qn,Choice1,Choice2,

,Choicem],label),m表示共有m个候选角色名,Qn表示对话正文句子,称为中心句,Cn是中心句前后动态范围上下文片段,所述动态范围指上下文片段长短基于模型可识别字符长度L而改变,给定动态窗口范围,使Cn片段字符长度len(Cn)<L,字符过长则缩小窗口;[Choice1,Choice2,

,Choicem]为该片段内出现的角色候选,label为实际样本对应的真实角色序号;构建模型中的训练模块,所述训练模块基于语言模型,所述语言模型为整体模型的编码部分,记作LM,训练模块的模型结构如下:M_role=softmax(concat(Class(LM([Cn,Qn,Choice1]),

,Class(LM([Cn,Qn,Choicem]))),其中,m表示共有m个选项,其中Class是通过LM输出当前组合文本对应的分数,concat是将多个候选答案对应的分数进行拼接,softmax得到m个类别输出;使输出结果与label进行拟合;重复训练模块中的内容,当模型训练后的准确率达到90%的衡量指标时保存最优模
型,对章节正文进行预测;输入原文记作H={H1,H2,
……
,Hn},其中,Hn=(Cn,Qn,Choice1,Choice2,

,Choicem]),输出结果R=Choice[Max_index(M_role(Batch(H)))],其中...

【专利技术属性】
技术研发人员:韩太军吴杨马宇峰徐斌顾炎刘东晓杨佳乐张松坡崔瑞博陈炜于
申请(专利权)人:上海阅文信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1