本发明专利技术提供了一种作者分析方法和作者分析系统。所述方法包括:步骤S101:载入特定作者的语言模型,其中所述语言模型为利用所述特定作者的语料基于神经网络训练得到;步骤S102:通过所述语言模型计算新输入的语料的作者为所述特定作者的概率。该方法可以更加精确地进行作者分析,以提供最优的作者分析性能。该作者分析系统同样具有上述优点。
【技术实现步骤摘要】
本专利技术涉及文学作品分析领域,具体而言涉及一种作者分析方法和作者分析系统。
技术介绍
人类的历史上有许多经典的语言文学作品,这些作品极大的促进了当今世人对古代社会的了解。因此,考证这些作品的作者就成为了考古学家和历史学家面临的一个重要的问题。然而,由于古代的印刷技术不够发达,很多情况下这些文学稿件都存留的不多;同时大多数的古代人都不太重视知识产权的问题,因而这些存留的稿件也不一定有真实作者的姓氏,或者仅仅留存了一个笔名。如《脂砚斋重评石头记》的脂砚斋,《金瓶梅》的兰陵笑笑生,以及西班牙的《熙德之歌》或是阿拉伯的《一千零一夜》,这些作品的作者是谁都因为各种原因而仅能留下一些猜测,而无法得到有力的证据证实。为解决这个问题,传统的学者也有一些具体的方法。在这些方法中,有一种方法通常会被认为是相当科学的,那就是在同时代有文稿遗留的人中进行筛选,找到最符合著作该作品条件的人。筛选的内容主要有作者的生平轨迹,作品风格和思想内容等。然而这一过程就目前来看主要依赖的是人为的鉴定,是一个较为感性的过程;即使有引入方法和计算机过程的鉴定,也大多是较为简单的基于统计学的一个效果较差、规则相对较弱的系统,或是基于神经网络的一个特征分类器,没有能够从根本上找到语言文字的特点。因此,这些佚名古稿的作者是谁仍然难以下一个定论。
技术实现思路
针对现有技术的不足,本专利技术提出一种作者分析方法和作者分析系统,可以显著提升作者分析的精确度和性能,同时具有良好的可移植性和可改进性。本专利技术的一个实施例提供一种作者分析方法,其特征在于,所述方法包括:步骤SlOl:载入特定作者的语言模型,其中所述语言模型为利用所述特定作者的语料基于神经网络训练得到;步骤S102:通过所述语言模型计算新输入的语料的作者为所述特定作者的概率。示例性地,所述神经网络是长短期记忆人工神经网络LSTM。示例性地,在所述步骤S102中,利用维特比算法进行计算,所述维特比算法仅记录经所述语言模型评分的高于阈值的状态。示例性地,所述步骤S102包括:通过所述语言模型计算新输入的语料中每个短词或字的置信程度,利用所述维特比算法得到整个所述新输入的语料的置信程度,将整个所述新输入的语料的置信程度归一化为所述新输入的语料的作者为所述特定作者的概率。示例性地,在所述步骤S102之后还包括步骤S103:读入所述新输入的语料,将所述语料被编码作为待判定的数据,向所述语言模型输入所述新输入的语料中的每个短词或字,以生成新的短词或字。本专利技术的另一实施例提供一种作者分析系统,其特征在于,所述系统包括:语言判定模块,用于载入特定作者的语言模型以计算新输入的语料的作者为所述特定作者的概率,其中所述语言模型为利用所述特定作者的语料基于神经网络训练得到。示例性地,所述系统还包括生成语言模型模块,用于生成所述特定作者的语言模型;和/或,所述神经网络是长短期记忆人工神经网络LSTM。示例性地,所述语言判定模块还用于利用维特比算法进行判定,所述维特比算法仅记录经所述语言模型的评分高于阈值的状态。示例性地,所述计算新输入的语料的作者为所述特定作者的概率包括:通过所述语言模型计算新输入的语料中每个短词或字的置信程度,利用所述维特比算法得到整个所述新输入的语料的置信程度,将整个所述新输入的语料的置信程度归一化为所述新输入的语料的作者为所述特定作者的概率。示例性地,所述作者分析系统还包括语言生成模块,用于读入所述新输入的语料,所述语料被编码以作为待判定的数据,并且向所述语言模型输入所述新输入的语料中的每个短词或字,以输出新的短词或字。本专利技术的作者分析方法,由于通过基于神经网络训练得到的特定作者的语言模型对新输入的语料的作者为特定作者的概率进行计算,因而可以保证更高的作者分析精确度和最优的作者分析性能。本专利技术的作者分析系统,同样具有上述优点。【附图说明】本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。附图中:图1为本专利技术实施例一的作者分析方法的流程图;以及图2为本专利技术实施例二的作者分析方法的流程图。【具体实施方式】在下文的描述中,给出了大量具体的细节以便提供对本专利技术更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本专利技术可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本专利技术发生混淆,对于本领域公知的一些技术特征未进行描述。应当理解的是,本专利技术能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本专利技术的范围完全地传递给本领域技术人员。在附图中,为了清楚,层和区的尺寸以及相对尺寸可能被夸大。自始至终相同附图标记表示相同的元件。在此使用的术语的目的仅在于描述具体实施例并且不作为本专利技术的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。为了彻底理解本专利技术,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本专利技术的技术方案。本专利技术的较佳实施例详细描述如下,然而除了这些详细描述外,本专利技术还可以具有其他实施方式。本专利技术的一个实施例提供一种作者分析方法。该方法可以显著提高作者分析的精确度以及作者分析性能。实施例一下面,参照图1来具体描述本专利技术的一个实施例的一种作者分析方法。其中,图1为本专利技术实施例一的作者分析方法的流程图。本专利技术实施例的作者分析方法,包括如下步骤:步骤SlOl:读入特定作者的语料,基于神经网络提取所述语料的特征,生成所述特定作者的语言模型。示例性地,本步骤包括:生成语言模型模块读入特定作者的大量语料文献,并在该模块内部利用神经网络反复训练总结出该作者名下的语料文献的特征,将它保存成为特定格式的语言模型便于下次调用。步骤S102:载入所述语言模型,以判定新输入的语料的作者为所述特定作者的概率。示例性地,本步骤包括:语言判定模块读入一篇作者佚名的古稿,将其编码后作为待判定的数据准备好,便于下一步提供给语言模型。示例性地,本步骤还包括:语言判定模块载入之前训练好的语言模型,作为判定当前待判定数据的依据。示例性地,本步骤还包括:语言判定模块根据语言模型的各项参数,利用改进维特比算法的辅助,计算出在该语言模型下,待判定数据中每个短词或字的置信程度,进一步可以得出整个数据的置信程度,并将其归一化为一个概率相关的得分。示例性地,本步骤还包括:将语言判定模块得出的概率相关的得分输出给用户。用户可以根据对应于不同语言模型的概率得分,评估认定与概率得分最高的语言模型相对应的特定作者最有可能为该新输入的语料的作者。示例性地,所述神经网络是长短期记忆人工神经网络LSTM (Long Short TermMemory)。示例性地,在所述步骤S102中,利用维特比算法进行判定,所述维特比算法仅记录经所述语言模型的评分高于阈值的状态。其中所述阈值可以根据实际需要进行设定,例如为6本文档来自技高网...
【技术保护点】
一种作者分析方法,其特征在于,所述方法包括:步骤S101:载入特定作者的语言模型,其中所述语言模型为利用所述特定作者的语料基于神经网络训练得到;步骤S102:通过所述语言模型计算新输入的语料的作者为所述特定作者的概率。
【技术特征摘要】
【专利技术属性】
技术研发人员:朱睿,张弛,吴家楠,
申请(专利权)人:北京旷视科技有限公司,北京小孔科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。