本公开提供的一种剧本文本处理方法及装置,可以对剧本文本中任一场次的场次内容文本:获得该场次内容文本的场景关键词向量、标题场景词向量、第一角色的角色关联数据以及第二角色的角色场景词向量,进而获得场次内容文本的第一场景词相似度、第二场景词相似度以及第三场景词相似度;将角色关联数据、第一场景词相似度、第二场景词相似度以及第三场景词相似度输入至预先训练好的剧情分割模型中,获得剧情分割模型输出的与剧本文本对应的剧情分割点。本公开通过剧本文本中各场次对应的相似度数据和角色关联数据,利用预先训练好的剧情分割模型,可以快速、准确预测出剧本文本中的剧情分割点,从而提高剧本文本的剧情划分效率和正确性。和正确性。和正确性。
【技术实现步骤摘要】
一种剧本文本处理方法及装置
[0001]本公开涉及文本处理领域,尤其涉及一种剧本文本处理方法及装置。
技术介绍
[0002]剧本作为一种文学体裁,主要是由台词和舞台指示组成的文本。在剧本文本中,通常包括闪回内容、蒙太奇内容、场景描述内容、角色对话句以及角色行为句等。
[0003]在一份剧本文本中可以包含着多个剧情,而剧情作为一个叙事故事的戏剧和感情成份,当前对剧本文本中的剧情的划分,主要依赖于戏剧专业人员的人工判定和操作。这在大篇幅剧本文本的情况下,会出现剧情划分效率低且容易出错的问题。
[0004]因此,如何高效和正确地对剧本文本进行处理,成为本领域技术人员急需解决的技术问题。
技术实现思路
[0005]鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种剧本文本处理方法及装置,技术方案如下:
[0006]一种剧本文本处理方法,包括:
[0007]获得剧本文本中各个场次对应的场次内容文本;
[0008]对任一所述场次的所述场次内容文本:获得该场次内容文本的场景关键词向量、标题场景词向量、第一角色的角色关联数据以及第二角色的角色场景词向量,其中,所述第一角色为在所述剧本文本中出现次数最多的若干个角色,所述第二角色为在该场次首次出现且在下一场次有发言的角色;
[0009]利用所述场景关键词向量,获得所述场次内容文本的第一场景词相似度;
[0010]利用所述标题场景词向量,获得所述场次内容文本的第二场景词相似度;
[0011]利用所述角色场景词向量,获得所述场次内容文本的第三场景词相似度;
[0012]将各所述场次对应的所述角色关联数据、所述第一场景词相似度、所述第二场景词相似度以及所述第三场景词相似度输入至预先训练好的剧情分割模型中,获得所述剧情分割模型输出的与所述剧本文本对应的剧情分割点。
[0013]可选的,在所述获得所述剧情分割模型输出的与所述剧本文本对应的剧情分割点之后,所述方法还包括:
[0014]统计所述剧本文本中的所述剧情分割点的数量;
[0015]基于所述剧情分割点的数量,生成所述剧本文本对应的剧本情节数量。
[0016]可选的,所述获得剧本文本中各个场次对应的场次内容文本,包括:
[0017]识别出剧本文本中的标题文本;
[0018]按照所述标题文本对所述剧本文本进行场次划分,获得与各场次对应的场次内容文本。
[0019]可选的,所述利用所述场景关键词向量,获得所述场次内容文本的第一场景词相
似度,包括:
[0020]利用该场次和与该场次相邻的其他场次对应的所述场景关键词进行相似度计算,获得所述场次内容文本的第一场景词相似度。
[0021]可选的,所述利用所述标题场景词向量,获得所述场次内容文本的第二场景词相似度,包括:
[0022]利用该场次和与该场次存在第一关联关系的其他场次对应的所述标题场景词向量进行相似度计算,获得所述场次内容文本的第二场景词相似度;
[0023]和/或,利用该场次和与该场次存在第二关联关系的其他场次对应的所述标题场景词向量进行相似度计算,获得所述场次内容文本的第二场景词相似度。
[0024]可选的,所述第一关联关系为与该场次相邻,所述第二关联关系为与该场次具有所述第一关联关系的其他场次相邻。
[0025]可选的,所述角色关联数据包括所述第一角色在该场次内容文本中的出现次数、角色关联句数量以及角色互动次数。
[0026]可选的,所述利用所述角色场景词向量,获得所述场次内容文本的第三场景词相似度,包括:
[0027]利用该场次和与该场次相邻且在该场次之后的下一场次的所述角色场景词向量进行相似度计算,获得所述场次内容文本的第三场景词相似度。
[0028]可选的,所述剧情分割模型为CatBoost算法模型。
[0029]一种剧本文本处理装置,包括:场次内容文本获得单元、文本数据获得单元、第一场景词相似度获得单元、第二场景词相似度获得单元、第三场景词相似度获得单元以及剧情分割点获得单元,
[0030]所述场次内容文本获得单元,用于获得剧本文本中各个场次对应的场次内容文本;
[0031]所述文本数据获得单元,用于对任一所述场次的所述场次内容文本:获得该场次内容文本的场景关键词向量、标题场景词向量、第一角色的角色关联数据以及第二角色的角色场景词向量,其中,所述第一角色为在所述剧本文本中出现次数最多的若干个角色,所述第二角色为在该场次首次出现且在下一场次有发言的角色;
[0032]所述第一场景词相似度获得单元,用于利用所述场景关键词向量,获得所述场次内容文本的第一场景词相似度;
[0033]所述第二场景词相似度获得单元,用于利用所述标题场景词向量,获得所述场次内容文本的第二场景词相似度;
[0034]所述第三场景词相似度获得单元,用于利用所述角色场景词向量,获得所述场次内容文本的第三场景词相似度;
[0035]剧情分割点获得单元,用于将各所述场次对应的所述角色关联数据、所述第一场景词相似度、所述第二场景词相似度以及所述第三场景词相似度输入至预先训练好的剧情分割模型中,获得所述剧情分割模型输出的与所述剧本文本对应的剧情分割点。
[0036]借由上述技术方案,本公开提供的一种剧本文本处理方法及装置,可以获得剧本文本中各个场次对应的场次内容文本;对任一场次的场次内容文本:获得该场次内容文本的场景关键词向量、标题场景词向量、第一角色的角色关联数据以及第二角色的角色场景
词向量,其中,第一角色为在剧本文本中出现次数最多的若干个角色,第二角色为在该场次首次出现且在下一场次有发言的角色;利用场景关键词向量,获得场次内容文本的第一场景词相似度;利用标题场景词向量,获得场次内容文本的第二场景词相似度;利用角色场景词向量,获得场次内容文本的第三场景词相似度;将角色关联数据、第一场景词相似度、第二场景词相似度以及第三场景词相似度输入至预先训练好的剧情分割模型中,获得剧情分割模型输出的与剧本文本对应的剧情分割点。本公开通过剧本文本中各场次对应的相似度数据和角色关联数据,利用预先训练好的剧情分割模型,可以快速、准确预测出剧本文本中的剧情分割点,有助于对剧本文本的剧情划分,提高剧本文本的剧情划分效率和正确性。
[0037]上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
[0038]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0039]图1示出了本公开实施例提供的剧本文本处理方法的一种实本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种剧本文本处理方法,其特征在于,包括:获得剧本文本中各个场次对应的场次内容文本;对任一所述场次的所述场次内容文本:获得该场次内容文本的场景关键词向量、标题场景词向量、第一角色的角色关联数据以及第二角色的角色场景词向量,其中,所述第一角色为在所述剧本文本中出现次数最多的若干个角色,所述第二角色为在该场次首次出现且在下一场次有发言的角色;利用所述场景关键词向量,获得所述场次内容文本的第一场景词相似度;利用所述标题场景词向量,获得所述场次内容文本的第二场景词相似度;利用所述角色场景词向量,获得所述场次内容文本的第三场景词相似度;将各所述场次对应的所述角色关联数据、所述第一场景词相似度、所述第二场景词相似度以及所述第三场景词相似度输入至预先训练好的剧情分割模型中,获得所述剧情分割模型输出的与所述剧本文本对应的剧情分割点。2.根据权利要求1所述的方法,其特征在于,在所述获得所述剧情分割模型输出的与所述剧本文本对应的剧情分割点之后,所述方法还包括:统计所述剧本文本中的所述剧情分割点的数量;基于所述剧情分割点的数量,生成所述剧本文本对应的剧本情节数量。3.根据权利要求1所述的方法,其特征在于,所述获得剧本文本中各个场次对应的场次内容文本,包括:识别出剧本文本中的标题文本;按照所述标题文本对所述剧本文本进行场次划分,获得与各场次对应的场次内容文本。4.根据权利要求1所述的方法,其特征在于,所述利用所述场景关键词向量,获得所述场次内容文本的第一场景词相似度,包括:利用该场次和与该场次相邻的其他场次对应的所述场景关键词进行相似度计算,获得所述场次内容文本的第一场景词相似度。5.根据权利要求1所述的方法,其特征在于,所述利用所述标题场景词向量,获得所述场次内容文本的第二场景词相似度,包括:利用该场次和与该场次存在第一关联关系的其他场次对应的所述标题场景词向量进行相似度计算,获得所述场次内容文本的第二场景词相似度;和/或,利用该场次和与该场次存在第二关联关系的其他场次对应的所述标题场景词向量进行相似度计算,...
【专利技术属性】
技术研发人员:蒋松岐,周红喆,
申请(专利权)人:北京海马轻帆娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。