字频分级统计方法及系统技术方案

技术编号：10900964 阅读：129 留言：0更新日期：2015-01-14 11:48

本发明专利技术涉及计算机信息处理技术领域，公开了一种字频分级统计方法及系统。该方法包括：提取每份原始文献的属性信息；根据所述属性信息对所述原始文献进行分类，并建立不同类别的文档属性表；逐一对各类别的原始文献进行数字化，生成数字化文档；根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计，并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下；按每篇文档的字频统计记录为基础统计单位，进行文字在各种统计范围内的逐级合并式字频统计。利用本发明专利技术实施例提供的字频分级统计方法及系统，可以大大提高统计速度和效率以及准确度。

全部详细技术资料下载

【技术实现步骤摘要】
字频分级统计方法及系统
本专利技术涉及计算机信息处理
，具体涉及一种字频分级统计方法及系统。
技术介绍
文字的专利技术是人类文明的重要标志，也是一个民族的传统与文化得以延续的主要手段。我国文字历史悠久，形体变革多样。数千年来，从文字图画到图画文字，再到甲骨文、金文、大篆、小篆、隶书、草书、行书、楷书，汉字的形体虽多有变异，但又一脉相承，忠实地记录了中华文明的光辉历程。作为文字具体载体的古今字书资源数量庞大，从东汉《说文解字》到当代的《汉语大字典》，各类著录了大批文字及其形音义属性的字书、韵书，是进行文字研究平台的基本资源，对这些浩瀚的文字资源进行数字化后，如何高效的进行各种统计范围、统计级别的字频统计，将会大大促进中华各族文字研究的进程，进而加快我国文字处理的国际化、标准化进程。而现有的字频统计方法通常是，首先针对待提取的古今字书原始资源，进行数字化处理，建立基础字集数据库进行处理。这些基础数据库包括古今字书资源库、古文字属性库、现代汉字属性库、少数民族文字属性库等，然后以单个字本身为单位，在全体数字资源库中逐个进行遍历性质的字频统计，这种统计方式在大数据量的时候其统计效率较差，速度较慢。在上百万、上千万的数据统计中，通常需要较长的等待时间。这种方式即使在大型数据库服务器端采取了优化措施，其即时的统计速度仍不能让人满意。
技术实现思路
本专利技术提供一种字频分级统计方法及系统，以提高统计速度和准确率。为此，本专利技术提供如下技术方案: 一种字频分级统计方法，包括: 提取每份原始文献的属性信息； ...

【技术保护点】
一种字频分级统计方法，其特征在于，包括：提取每份原始文献的属性信息；根据所述属性信息对所述原始文献进行分类，并建立不同类别的文档属性表；逐一对各类别的原始文献进行数字化，生成数字化文档；根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计，并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下；按每篇文档的字频统计记录为基础统计单位，进行文字在各种统计范围内的逐级合并式字频统计。

【技术特征摘要】
1.一种字频分级统计方法，其特征在于，包括: 提取每份原始文献的属性信息；根据所述属性信息对所述原始文献进行分类，并建立不同类别的文档属性表；逐一对各类别的原始文献进行数字化，生成数字化文档；根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计，并将统计结果保存到与所述文档属性表与所述数字化文档相应的电子目录下；按每篇文档的字频统计记录为基础统计单位，进行文字在各种统计范围内的逐级合并式字频统计。2.根据权利要求1所述的方法，其特征在于，所述属性信息包括:文件信息和内容信息；所述文件信息的特征包括:文件时间信息，文件名；所述内容信息的特征包括:类别信息，分类号，作者，朝代信息，字型信息，出土信息，出版信息、样本名称。3.根据权利要求1所述的方法，其特征在于，所述逐一对各类别的原始文献进行数字化，生成数字化文档包括: 逐一将各类别的原始文献的图片转换为可以编辑、检索的数字化文档。4.根据权利要求1所述的方法，其特征在于，所述文字的属性信息包括以下任意一项或多项属性信息:文字的字型、Unicode编码、笔顺、笔画、部首、字型结构。5.根据权利要求1所述的方法，其特征在于，所述根据文字的属性信息进行以所述数字化文档为单位的初级字频统计和字数统计包括: 根据文字的属性信息，以每份文档为单位进行每个字符的字频统计和字数统计。6.根据权利要求1至5任一项所述的方法，其特征在于，所述进行文字在...

【专利技术属性】
技术研发人员：高玉军，刘昉，
申请(专利权)人：北大方正集团有限公司，方正信息产业控股有限公司，北京北大方正电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人