一种结构化画本的生成方法和生成系统技术方案

技术编号：37626565 阅读：12 留言：0更新日期：2023-05-18 12:18

本发明专利技术提出了一种结构化画本的生成方法，输入小说的文本片段，对文本片段进行段落结构化解析，生成结构化画本；所述段落结构化解析为通过对输入文本片段进行角色对话识别、文本情感识别、特效场景挖掘，将所述文本片段转换为具有多角色、多情感、多场景的文本对话脚本。本发明专利技术从角色挖掘，音色匹配，章节结构化到特效场景识别，通过自然语言处理技术实现小说文本画本创建的全自动化处理，相比较当前人工创建画本的过程更加高效，时间上提效30倍。时间上提效30倍。时间上提效30倍。

全部详细技术资料下载

【技术实现步骤摘要】
一种结构化画本的生成方法和生成系统

[0001]本专利技术属于语音合成
，涉及结构化画本的生成方法和生成系统。

技术介绍

[0002]有声书市场近3年逐年递增35％+，仍处于增长期；各在线阅读平台重点布局有声书赛道，通过更优质、更多种类的有声内容，吸引并培养用户习惯，拓展市场。目前听书市场竞争激烈，各类听书软件百花齐放。首先，听书系统借助于声音的穿透力分享知识，让用户充分利用碎片化时间。其次，听书系统借助于抑扬顿挫的语调，将枯燥的文字转化为生动鲜活的声音朗读，使得用户像听音乐一样的去听书。尽管目前听书系统技术已经很成熟了，但是如何让用户沉浸在小说中的情节，使其更加有画面感和代入感，成为了提升用户使用体验的一个难题。
[0003]目前业界没有类似技术或实现方案。常规的方法是依赖人工揣摩小说中人物的情感、动作等，结合不同的场景进行真人配音。例如：在寒风呼啸的晚上，她独自一人在房间哭泣。此处的配音为在寒风呼啸的背景音之下，女主伴随着哭泣声发声。
[0004]例如在现有的语音合成领域当中，例如中国专利技术专利CN109523986A中语音合成方法的步骤如下所述：
[0005]1.通过获取文本信息，并确定所述文本信息中的角色和每一个所述角色的文本内容；
[0006]2.对每一个所述角色的文本内容进行角色识别，确定每一个所述角色的角色属性信息；
[0007]3.根据每一个所述角色的角色属性信息，获取与各所述角色一一对应的发音人，再人工确认；
[0008]4.根据所述文本信息和...

【技术保护点】

【技术特征摘要】
1.一种结构化画本的生成方法，其特征在于，输入小说的文本片段，对文本片段进行段落结构化解析，生成结构化画本；所述段落结构化解析为通过对输入文本片段进行角色对话识别、文本情感识别、特效场景挖掘，将所述文本片段转换为具有多角色、多情感、多场景的文本对话脚本；其中，通过角色对话依存关系及指代消解文本处理，将文本片段改编成对话；利用Bert构建文本情感分类模型实现文本细颗粒度情感分类，赋予文本情感属性；通过关键词及场景语义提取对文本片段中存在特效的文字位置，最终创建结构化画本；具体包括如下步骤：步骤A、对预先获得的包含角色和情节正文的格式化文本进行章节拆解，并改编成对话；步骤B、对步骤A中获得的已改编成对话的文本内容进行对话角色识别、文本情感识别、特效场景识别处理；步骤C、生成最终的结构化画本。2.如权利要求1所述的结构化画本的生成方法，其特征在于，步骤A中，所述章节拆解是指将格式化文本根据对话拆解策略，拆解成角色对话句与叙述句；所述角色对话句指文本中人物间对话的句子，文本其余部分表述为叙述句；所述对话拆解策略指根据作者写作习惯与文本正则匹配的方式对文本进行拆分的策略。3.如权利要求1所述的结构化画本的生成方法，其特征在于，步骤B中，所述对话角色识别是指通过对话角色识别模块将章节正文中的对话文本映射到对应的角色中；所述对话角色识别模块中的模型结构采用语言模型结构，构建了基于上下文的角色决策结构。4.如权利要求3所述的结构化画本的生成方法，其特征在于，所述语言模型结构指基于bert构建的深度学习语言模型，输入对话文本，识别对话人物；所述角色决策结构指结合拆解策略与语言模型，对文本进行结构化拆解，对话角色关系识别，最终转化为结构化画本的角色决策结构；和/或，在构建完成角色对话识别模块模型架构后，输入样本X＝{X1,X2,
……
,Xn}，Xn表示第n条数据，Xn＝(Cn,Qn,Choice1,Choice2,
…
,Choicem],label)，m表示共有m个候选角色名，Qn表示对话正文句子，称为中心句，Cn是中心句前后动态范围上下文片段，所述动态范围指上下文片段长短基于模型可识别字符长度L而改变，给定动态窗口范围，使Cn片段字符长度len(Cn)<L，字符过长则缩小窗口；[Choice1,Choice2,
…
,Choicem]为该片段内出现的角色候选，label为实际样本对应的真实角色序号；构建模型中的训练模块，所述训练模块基于语言模型，所述语言模型为整体模型的编码部分，记作LM，训练模块的模型结构如下：M_role＝softmax(concat(Class(LM([Cn,Qn,Choice1]),
…
,Class(LM([Cn,Qn,Choicem])))，其中，m表示共有m个选项，其中Class是通过LM输出当前组合文本对应的分数，concat是将多个候选答案对应的分数进行拼接，softmax得到m个类别输出；使输出结果与label进行拟合；重复训练模块中的内容，当模型训练后的准确率达到90％的衡量指标时保存最优模
型，对章节正文进行预测；输入原文记作H＝{H1,H2,
……
,Hn}，其中，Hn＝(Cn,Qn,Choice1,Choice2,
…
,Choicem])，输出结果R＝Choice[Max_index(M_role(Batch(H)))]，其中...

【专利技术属性】
技术研发人员：韩太军，吴杨，马宇峰，徐斌，顾炎，刘东晓，杨佳乐，张松坡，崔瑞博，陈炜于，
申请(专利权)人：上海阅文信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人