文本分析及可视化方法与系统技术方案

技术编号:37670592 阅读:10 留言:0更新日期:2023-05-26 04:32
本发明专利技术公开了一种文本分析及可视化系统,自然语言处理器提取文本中的角色及对应的角色信息并构建角色列表,将文本划分成剧情片段;统计处理器统计角色在剧情片段中的出场频次;相关分析器对出场频次分布进行分析并获取各个角色间出场频次的相关性;可视化装置通过可视化方法将角色在各剧情片段中的出场频次进行呈现,利用角色类型以及不同角色之间出场频次的相关性对各个角色的呈现顺序进行排列,使得相邻角色之间的相关性最大化。此外,本发明专利技术还公开了一种文本分析及可视化方法。本发明专利技术能够辅助剧本编辑者根据文本进行剧本改编以及导演使用剧本安排和指导表演者进行表演,极大提高了文本改编的效率,保证了文本改编作品的表演质量。的表演质量。的表演质量。

【技术实现步骤摘要】
文本分析及可视化方法与系统


[0001]本专利技术涉及文本分析处理领域,特别涉及一种文本分析及可视化方法与系统。

技术介绍

[0002]当前,文学视听化、影视化浪潮愈演愈烈,在对现有的文字作品(例如小说、散文)进行改编的场景中,最终改编的目标形式通常为电影、电视剧、动画、漫画、广播剧、话剧、音乐剧等,而改编过程抽象地分为两个阶段,即剧本编辑阶段、表演阶段;在剧本编辑阶段中,剧本的编辑者将文字作品的文本改编为剧本,剧本描述了表演者和角色之间的关系以及剧本内容和角色之间的关系,并由剧本能够推出剧本内容和表演者之间的关系;而在表演阶段中,表演者根据剧本演绎其中的内容;在剧本编辑阶段,剧本的编辑者首先需要仔细阅读文字作品,从而获取文本中与角色相关的信息,包括全部文本所包含的所有角色以及各个角色对应的角色信息;在表演阶段,表演者可以为一人或者多人,每个表演者可以分别饰演多个角色,即表演者和角色之间存在一对多关系,因此剧本的使用者即导演在根据剧本安排表演者和角色之间关系时需要考虑在同一个剧情场景中同一个表演者尽量兼任较少的角色,从而保证表演作品的质量;因此,当前在对文字作品进行改编的两个阶段中,剧本的编辑者在改编剧本的过程中,以及导演在使用剧本安排和指导表演者进行表演的过程中都需要付出大量的精力,降低了改编的工作效率。

技术实现思路

[0003]基于此,为解决现有技术中的技术问题,特提出了一种文本分析及可视化方法,包括:将文本输入至文本分析及可视化系统中;文本分析及可视化系统包括自然语言处理器、统计处理器、相关分析器、可视化装置;自然语言处理器对输入的文本进行自然语言处理从而提取文本中的角色及对应的角色信息并构成角色列表;自然语言处理器对文本进行自然语言处理从而将文本划分成一个或多个剧情片段;统计处理器统计得到各个角色在各剧情片段中的出场频次;相关分析器对角色在各剧情片段中的出场频次分布模式进行分析并获取各个角色之间出场频次的相关性;可视化装置通过可视化方法将角色在各剧情片段中的出场频次进行呈现;可视化装置利用角色类型以及不同角色之间出场频次的相关性对各个角色的呈现顺序进行排列,使得相邻角色之间的相关性最大化。
[0004]在一种实施例中,角色信息包括角色类型、角色性别、角色年龄、角色特点;
角色信息还包括该角色在涉及其自身的不同剧情片段出场的文本实例,用于辅助编辑者对角色进行梳理和判断;角色信息还包括各个角色在文本的全文中的总出场频次、总出场频次占比,由统计处理器统计得到;角色信息还包括各个角色的在不同剧情片段中的出场频次,由统计处理器统计得到。
[0005]在一种实施例中,自然语言处理器包括命名实体识别模型装置、角色信息判断模型装置、角色特点描述模型装置;命名实体识别模型装置从文本中获取并标注角色名,通过对全文出场的角色进行提取和统计获得角色列表;角色信息判断模型装置根据角色名和角色出场的上下文对角色的角色类型、角色性别、角色年龄进行分类;角色特点描述模型装置通过对输入的角色出场时的上下文进行分析处理,输出角色特点的概要性描述;其中,角色特点描述模型装置利用序列到序列模型分析文本并生成关于角色特点的描述;或者,角色特点描述模型装置利用序列标注模型从文本中摘取关于角色特点的描述内容。
[0006]在一种实施例中,统计处理器以剧情片段为单位统计得到角色在各个剧情片段中的出场频次,将剧情片段在文本中出现的先后顺序进行排列,并根据排列顺序为剧情片段设置相应的序号;相关分析器将各个角色在不同剧情片段中的出场频次以角色向量进行表示,其中,角色向量的下标为剧情片段的序号;对任意两个角色,相关分析器计算其对应角色向量之间的相关性;统计处理器完成以剧情片段为单位角色出场频次的统计后,可视化装置将表示每个角色在不同的剧情片段中出场频次的角色向量组织形成可视化矩阵,其中,可视化矩阵的横轴为剧情片段,纵轴为角色;可视化装置利用二维热力图或气泡图对可视化矩阵进行可视化呈现。
[0007]在一种实施例中,剧情片段的单位为场景或章节;自然语言处理器包括序列标注模型装置、模式匹配装置;其中,序列标注模型装置通过序列标注模型将文本划分成一个或多个场景,统计处理器以场景为单位统计各个角色的出场频次;或者,模式匹配装置通过模式匹配处理识别出文本中的章节,统计处理器以章节为单位统计各个角色的出场频次;其中,模式匹配装置利用分类模型识别章节边界;或者,模式匹配装置利用基于规则的模式匹配方法识别章节边界。
[0008]此外,为解决现有技术中的技术问题,特提出了一种文本分析及可视化系统,包括自然语言处理器、统计处理器、相关分析器、可视化装置;将文本输入至文本分析及可视化系统中;其中,自然语言处理器对输入的文本进行自然语言处理从而提取文本中的角色及
对应的角色信息并构建角色列表;自然语言处理器对文本进行自然语言处理从而将文本划分成一个或多个剧情片段;其中,统计处理器统计得到各个角色在各剧情片段中的出场频次;其中,相关分析器对角色在各剧情片段中的出场频次分布模式进行分析并获取各个角色之间出场频次的相关性;其中,可视化装置通过可视化方法将角色在各剧情片段中的出场频次进行呈现;可视化装置利用角色类型以及不同角色之间出场频次的相关性对各个角色的呈现顺序进行排列,使得相邻角色之间的相关性最大化。
[0009]在一种实施例中,角色信息包括角色类型、角色性别、角色年龄、角色特点;角色信息还包括该角色在涉及其自身的不同剧情片段出场的文本实例,用于辅助编辑者对角色进行梳理和判断;角色信息还包括各个角色在文本的全文中的总出场频次、总出场频次占比,由统计处理器统计得到;角色信息还包括各个角色的在不同剧情片段中的出场频次,由统计处理器统计得到。
[0010]在一种实施例中,自然语言处理器包括命名实体识别模型装置、角色信息判断模型装置、角色特点描述模型装置;命名实体识别模型装置从文本中获取并标注角色名,通过对全文出场的角色进行提取和统计获得角色列表;角色信息判断模型装置根据角色名和角色出场的上下文对角色的角色类型、角色性别、角色年龄进行分类;角色特点描述模型装置通过对输入的角色出场时的上下文进行分析处理,输出角色特点的概要性描述;其中,角色特点描述模型装置利用序列到序列模型分析文本并生成关于角色特点的描述;或者,角色特点描述模型装置利用序列标注模型从文本中摘取关于角色特点的描述内容。
[0011]在一种实施例中,统计处理器以剧情片段为单位统计得到角色在各个剧情片段中的出场频次,将剧情片段在文本中出现的先后顺序进行排列,并根据排列顺序为剧情片段设置相应的序号;相关分析器将各个角色在不同剧情片段中的出场频次以角色向量进行表示,其中,角色向量的下标为剧情片段的序号;对任意两个角色,相关分析器计算其对应角色向量之间的相关性;统计处理器完成以剧情片段为单位角色出场频次的统计后,可视化装置将表示每个角色在不同的剧情片段中出场频次的角色向量组织形成可视化矩阵,其中,可视化矩阵的横轴为剧情片段,纵轴为角色;可视化装置利用二维热力图或气泡图对可视化矩阵进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分析及可视化方法,其特征在于,包括:将文本输入至文本分析及可视化系统中;文本分析及可视化系统包括自然语言处理器、统计处理器、相关分析器、可视化装置;自然语言处理器对输入的文本进行自然语言处理从而提取文本中的角色及对应的角色信息并构成角色列表;自然语言处理器对文本进行自然语言处理从而将文本划分成一个或多个剧情片段;统计处理器统计得到各个角色在各剧情片段中的出场频次;相关分析器对角色在各剧情片段中的出场频次分布模式进行分析并获取各个角色之间出场频次的相关性;可视化装置通过可视化方法将角色在各剧情片段中的出场频次进行呈现;可视化装置利用角色类型以及不同角色之间出场频次的相关性对各个角色的呈现顺序进行排列,使得相邻角色之间的相关性最大化。2.根据权利要求1所述的文本分析及可视化方法,其特征在于,其中,角色信息包括角色类型、角色性别、角色年龄、角色特点;角色信息还包括该角色在涉及其自身的不同剧情片段出场的文本实例,用于辅助编辑者对角色进行梳理和判断;角色信息还包括各个角色在文本的全文中的总出场频次、总出场频次占比,由统计处理器统计得到;角色信息还包括各个角色的在不同剧情片段中的出场频次,由统计处理器统计得到。3.根据权利要求1所述的文本分析及可视化方法,其特征在于,其中,自然语言处理器包括命名实体识别模型装置、角色信息判断模型装置、角色特点描述模型装置;命名实体识别模型装置从文本中获取并标注角色名,通过对全文出场的角色进行提取和统计获得角色列表;角色信息判断模型装置根据角色名和角色出场的上下文对角色的角色类型、角色性别、角色年龄进行分类;角色特点描述模型装置通过对输入的角色出场时的上下文进行分析处理,输出角色特点的概要性描述;其中,角色特点描述模型装置利用序列到序列模型分析文本并生成关于角色特点的描述;或者,角色特点描述模型装置利用序列标注模型从文本中摘取关于角色特点的描述内容。4.根据权利要求1所述的文本分析及可视化方法,其特征在于,统计处理器以剧情片段为单位统计得到角色在各个剧情片段中的出场频次,将剧情片段在文本中出现的先后顺序进行排列,并根据排列顺序为剧情片段设置相应的序号;相关分析器将各个角色在不同剧情片段中的出场频次以角色向量进行表示,其中,角色向量的下标为剧情片段的序号;对任意两个角色,相关分析器计算其对应角色向量之间的相关性;统计处理器完成以剧情片段为单位角色出场频次的统计后,可视化装置将表示每个角色在不同的剧情片段中出场频次的角色向量组织形成可视化矩阵,其中,可视化矩阵的横
轴为剧情片段,纵轴为角色;可视化装置利用二维热力图或气泡图对可视化矩阵进行可视化呈现。5.根据权利要求1所述的文本分析及可视化方法,其特征在于,其中,剧情片段的单位为场景或章节;自然语言处理器包括序列标注模型装置、模式匹配装置;其中,序列标注模型装置通过序列标注模型将文本划分成一个或多个场景,统计处理器以场景为单位统计各个角色的出场频次;或者,模式匹配装置通过模式匹配处理识别出文本中的章节,统计处理器以章节为单位统计各个角色的出场频次;其中,模式匹配装置利用分类模型识别章节边界;或者,模式匹配装置利用基于规则的模式匹配方法识别章节边界。6.一...

【专利技术属性】
技术研发人员:朱风云陈博
申请(专利权)人:北京灵伴即时智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1