字频分级统计方法及系统技术方案

技术编号:10900964 阅读:126 留言:0更新日期:2015-01-14 11:48
本发明专利技术涉及计算机信息处理技术领域,公开了一种字频分级统计方法及系统。该方法包括:提取每份原始文献的属性信息;根据所述属性信息对所述原始文献进行分类,并建立不同类别的文档属性表;逐一对各类别的原始文献进行数字化,生成数字化文档;根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计,并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下;按每篇文档的字频统计记录为基础统计单位,进行文字在各种统计范围内的逐级合并式字频统计。利用本发明专利技术实施例提供的字频分级统计方法及系统,可以大大提高统计速度和效率以及准确度。

【技术实现步骤摘要】
字频分级统计方法及系统
本专利技术涉及计算机信息处理
,具体涉及一种字频分级统计方法及系统。
技术介绍
文字的专利技术是人类文明的重要标志,也是一个民族的传统与文化得以延续的主要手段。 我国文字历史悠久,形体变革多样。数千年来,从文字图画到图画文字,再到甲骨文、金文、大篆、小篆、隶书、草书、行书、楷书,汉字的形体虽多有变异,但又一脉相承,忠实地记录了中华文明的光辉历程。 作为文字具体载体的古今字书资源数量庞大,从东汉《说文解字》到当代的《汉语大字典》,各类著录了大批文字及其形音义属性的字书、韵书,是进行文字研究平台的基本资源,对这些浩瀚的文字资源进行数字化后,如何高效的进行各种统计范围、统计级别的字频统计,将会大大促进中华各族文字研究的进程,进而加快我国文字处理的国际化、标准化进程。 而现有的字频统计方法通常是,首先针对待提取的古今字书原始资源,进行数字化处理,建立基础字集数据库进行处理。这些基础数据库包括古今字书资源库、古文字属性库、现代汉字属性库、少数民族文字属性库等,然后以单个字本身为单位,在全体数字资源库中逐个进行遍历性质的字频统计,这种统计方式在大数据量的时候其统计效率较差,速度较慢。在上百万、上千万的数据统计中,通常需要较长的等待时间。这种方式即使在大型数据库服务器端采取了优化措施,其即时的统计速度仍不能让人满意。
技术实现思路
本专利技术提供一种字频分级统计方法及系统,以提高统计速度和准确率。 为此,本专利技术提供如下技术方案: 一种字频分级统计方法,包括: 提取每份原始文献的属性信息; 根据所述属性信息对所述原始文献进行分类,并建立不同类别的文档属性表; 逐一对各类别的原始文献进行数字化,生成数字化文档; 根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计,并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下; 按每篇文档的字频统计记录为基础统计单位,进行文字在各种统计范围内的逐级合并式字频统计。 优选地,所述属性信息包括:文件信息和内容信息; 所述文件信息的特征包括:文件时间信息,文件名; 所述内容信息的特征包括:类别信息,分类号,作者,朝代信息,字型信息,出土信息,出版信息、样本名称。 优选地,所述逐一对各类别的原始文献进行数字化,生成数字化文档包括: 逐一将各类别的原始文献的图片转换为可以编辑、检索的数字化文档。 优选地,所述文字的属性信息包括以下任意一项或多项属性信息:文字的字型、Unicode编码、笔顺、笔画、部首、字型结构。 优选地,所述根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计包括: 根据文字的属性信息,以每份文档为单位进行每个字符的字频统计和字数统计。 优选地,所述进行文字在各种统计范围内的逐级合并式字频统计包括: 基于所述数字化文档的内容属性信息,进行按文档属性信息的快速合并式字频统计;和/或 基于文字的属性信息,进行基于文字属性信息的快速合并式字频统计。 一种字频分级统计系统,包括: 提取单元,用于提取每份原始文献的属性信息; 分类单元,用于根据所述属性信息对所述原始文献进行分类,并建立不同类别的文档属性表; 数字化单元,用于逐一对各类别的原始文献进行数字化,生成数字化文档; 初始统计单元,用于根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计,并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下; 综合统计单元,用于按每篇文档的字频统计记录为基础统计单位,进行文字在各种统计范围内的逐级合并式字频统计。 优选地,所述数字化单元,具体用于逐一将各类别的原始文献的图片转换为可以编辑、检索的数字化文档。 优选地,所述初始统计单元,具体用于根据文字的属性信息,以每份文档为单位进行每个字符的字频统计和字数统计。 优选地,所述综合统计单元包括: 第一统计子单元,用于基于所述数字化文档的内容属性信息,进行按文档属性信息的快速合并式字频统计;和/或 第二统计子单元,用于基于文字的属性信息,进行基于文字属性信息的快速合并式字频统计。 本专利技术实施例提供的字频分级统计方法及系统,通过预先对单篇文档数字化同时完成单篇文档的初级字频统计,之后结合属性条件信息,针对各类统计条件,联合各篇文档中的初级字频统计数据,进行简单的数学累加即可快速完成最后需要的全范围字频统计。相比传统的字频统计方法而言,大大提高了统计速度和效率以及准确度。进一步地,由于在数字化进程中预先进行的各类属性记录与字频统计关联,也可以根据字频统计结果快速定位到涉及字频统计结果的所有原始文献信息,为文字的研究处理提供快捷方便的追溯功倉泛。 【附图说明】 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。 图1是本专利技术实施例字频分级统计方法的流程图; 图2是本专利技术实施例中单篇文档的字频统计数据示意图; 图3是本专利技术实施例字频分级统计系统的结构示意图。 【具体实施方式】 为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。 针对数量庞大的古今字书资源,在收集整理过程中的字频统计效率差、速度慢的问题,本专利技术实施例提供一种字频分级统计方法及系统,快速进行文字在古今字书资源统计范围内的合并式字频统计,其统计速度和准确率将大大提高,且每个字频统计均可以很方便的追溯和快速定位到原始文档中。 如图1所示,是本专利技术实施例字频分级统计方法的流程图,包括以下步骤: 步骤101,提取每份原始文献的属性信息。 所述原始文献是指与文献图片中文字完全相对应的文本信息,来源于各类文献样本,这些文献样本具体范围指包括但不限于大量文字的古今字书资源的样本,包括古代的书籍、善本、出土文物等原始资料的样本,也包括现代印刷出版物的样本。这些样本均需要进行以图片、以及对应现代文字形式的数字化录入工作。 所述原始文献的属性信息包括:文件信息和内容信息。其中,文件信息特征包括:文件时间信息、文件名等;内容信息特征包括:类别信息、分类号、作者、朝代信息(从古至今)、字型信息(如宋体、偕体、隶书、小篆、甲骨文等)、出土信息、出版信息、样本名称等。 如,对于民国时期的报纸,其文献属性信息应包括:报纸日期、版面、所用字型、标题字、正文字、报纸类表等常用信息。 步骤102,根据所述属性信息对所述原始文献进行分类,并建立不同类别的文档属性表。 所述文档属性表中的内容通常指示了文献内容属性特征。 对于原始文献属于哪个系列,需要进行分门别类,从文种结构上来讲,第一级可以划分为古代汉字、现代汉字、书法字体等,第二级是指在上一级节点下的子分类,例如古代文字可以进一步划分为第二级子分类,如金文,楷书,小篆等;现代文字可以进一步划分为第二级子分类,如楷书、隶书、草书等;第三级在第二级的基础上,进一步细分,如楷书下分报类、碑刻、期刊等;依次类推,第四级本文档来自技高网
...
字频分级统计方法及系统

【技术保护点】
一种字频分级统计方法,其特征在于,包括: 提取每份原始文献的属性信息; 根据所述属性信息对所述原始文献进行分类,并建立不同类别的文档属性表; 逐一对各类别的原始文献进行数字化,生成数字化文档; 根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计,并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下; 按每篇文档的字频统计记录为基础统计单位,进行文字在各种统计范围内的逐级合并式字频统计。

【技术特征摘要】
1.一种字频分级统计方法,其特征在于,包括: 提取每份原始文献的属性信息; 根据所述属性信息对所述原始文献进行分类,并建立不同类别的文档属性表; 逐一对各类别的原始文献进行数字化,生成数字化文档; 根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计,并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下; 按每篇文档的字频统计记录为基础统计单位,进行文字在各种统计范围内的逐级合并式字频统计。2.根据权利要求1所述的方法,其特征在于,所述属性信息包括:文件信息和内容信息; 所述文件信息的特征包括:文件时间信息,文件名; 所述内容信息的特征包括:类别信息,分类号,作者,朝代信息,字型信息,出土信息,出版信息、样本名称。3.根据权利要求1所述的方法,其特征在于,所述逐一对各类别的原始文献进行数字化,生成数字化文档包括: 逐一将各类别的原始文献的图片转换为可以编辑、检索的数字化文档。4.根据权利要求1所述的方法,其特征在于,所述文字的属性信息包括以下任意一项或多项属性信息:文字的字型、Unicode编码、笔顺、笔画、部首、字型结构。5.根据权利要求1所述的方法,其特征在于,所述根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计包括: 根据文字的属性信息,以每份文档为单位进行每个字符的字频统计和字数统计。6.根据权利要求1至5任一项所述的方法,其特征在于,所述进行文字在...

【专利技术属性】
技术研发人员:高玉军刘昉
申请(专利权)人:北大方正集团有限公司方正信息产业控股有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1