当前位置: 首页 > 专利查询>王宏源专利>正文

一种关于家谱数字化的方法技术

技术编号:2839132 阅读:262 留言:0更新日期:2012-04-11 18:40
一种关于家谱数字化的方法,其特点在于:将家谱中的“人”作为树状或森林状结构的一个数据节点,并使用支持Unicode(统一码)四字节编码汉字超大字符集及其输入法进行数据加工。该方法能够处理家谱书籍中所出现的绝大多数的生僻字,同时按照家谱的树状或森林逻辑结构,把家谱中大量的节点数据存储到具有这种逻辑结构的XML格式文件中,再把这些节点数据采用倒排索引的方式建立索引并提供检索,并对家谱中每个人的世系关系以直观,友好的“目录树结构”方式呈现在网页页面或桌面应用程序的界面上。这种方法可以避免家谱数字化加工与整理过程中的生僻字无法管理,及结构混乱无法大规模加工和存在重复录入数据的问题,加速了家谱数字化加工进程,使得对大量家谱进行数字化处理与检索、管理成为可能,有利于家谱的保护与开发利用。

【技术实现步骤摘要】

本专利技术属于计算机领域,具体涉及一种对家谱进行数字化处理的方法。
技术介绍
中国家谱历史悠久,总量可观,是中华民族一笔巨大的历史文化遗产。家谱又称宗谱、族谱或谱牒,是以记载一个血缘家族的世系与事迹为主要内容的史类文献。我国历史上家谱的出现至少可追溯到先秦时代,明清时期私修家谱更是成为一项全民性的文化活动。家谱有一定的编写体例,主要记述家族的历史沿革、世系繁衍、人口变迁、居地迁徙、婚姻状况,家族成员在科贡、官封名谥等政治生活中的地位、作用和事迹(包括著述),家族的经济情况和兴衰变化,以及家族的丧葬、祀典、族规家法等,因此,家谱是一种能够比较真实反映历史面貌、时代精神、社会风尚的载籍,历代学者都把谱系之学看作是一门重要的学问,是史学(正史、方志、家谱)的组成部分。近年来,越来越多的人希望通过对家谱的研究,来追溯家族发展的历史。家谱里所记载的丰富宝贵的资料,不但可以帮助人们了解自己的祖先和族人,而且也是历史学、社会学、民族学、文化人类学、人口学、优生学等学科的宝贵资料,有着巨大的学术研究价值。因此,对各种各样的家谱进行数字化处理具有重要的意义,这既可以加快家谱的保护与开发利用,又可以节省许多家谱研究者的精力和时间。然而,在对家谱进行数字化处理的过程中经常会遇到如下几个特殊性的问题1.绝大多家谱是由古代写到现代,多用中文繁体字,后续的也有简、繁体字共存的。其中涉及到的很多人名、地名,不但用到很多生僻字,而且还有大量的异体字、异构字,用字量大。但是现今常用的计算机系统所能处理的汉字最多只有两万多个字,远远无法涵盖家谱的全部用字。2.家谱中的世系图或表的格式特殊,传承关系繁复,如果没有一种好的数据整理及加工的方法,某些信息将会重复录入,容易搞错继承关系,增加校对与修正的工作量,给后期数据整理带来困难,还容易产生遗漏信息等问题。3.很多的家谱版面复杂,在一个页面中,文字经常既有横排,又有竖排,与现代书籍相差甚远,就是与一般古籍相比较也复杂很多,需要投入大量人工进行手工切分与调整。同时各种家谱书目的修编格式都不尽相同,如何把各种版面复杂,修编格式多样的家谱转换成统一的而又能用计算机存储和灵活处理的格式,这是对家谱进行数字化档案管理的关键问题。从家谱的结构来看,家谱体现了各个家族世系关系,在逻辑上是一种树状或森林结构。但是由于家谱一般制作成传统书籍的样式,这些树状或森林结构的家谱信息被放置在图书的页面内或者页面内的表格内。当一个家族繁衍到几十代,家族人数发展到数百人甚至成千上万人时,这种采用页面管理的树状或森林结构信息很难按照家谱书目上的编排结构快速找到不同页面内的家族成员的世系关系(这就是古代同族内命名时首先是采用可以区分世系的命名定式用字,在具体起名时多用同偏旁部首的字,并且严格避讳重名的原因之一。这种命名用字的风俗,可以便利在家谱中的查寻)。因此,需要根据家谱的这一特点来设计出一种能够利用计算机快速将分布在不同页面内的信息缀合成完整的整个家族的世系关系及家族中各成员的传承关系的工具。4.由于家谱中含有大量的生僻字,而且还有许多异体字、异构字,因而在对加工过之后的数字化家谱数据进行检索时需要一种支持超大字符集全文检索搜索引擎。同时,该检索引擎还需要能支持异体字与今天通行的文字之间的自动转换,以便利今人的检索与使用。5.多数家谱中采用表格的形式来呈现树状或森林结构的世系关系。这种呈现方式很不直观,同时由于受家谱页面大小的限制,当一个家族人数与结构变得庞大时,这种呈现方式根本不能直观地体现家族中的世系关系,通常需要使用者根据相关信息去分析与查找,这一过程既费时又困难。所以,对加工好的家谱信息需要一种既能快速查找出家族每个成员的世系关系,又能直观呈现与之相关的世系关系结构图(表)的方法。
技术实现思路
鉴于上述因素,本专利技术提供一种实现家谱数字化的方法。此方法能够有效地解决上述提出的家谱数字化处理过程中几个特殊性的问题。本方法解决其技术问题所采用的技术方案是使用支持Unicode(统一码)四字节编码的输入法来对家谱书籍中的所有出现的文字进行录入。Unicode四字节编码目前能够支持七万多汉字(Unicode 4.1标准),这使得家谱书籍所出现的生僻字、异体字、异构字中的绝大部分都能够进行数字化。按照树状或森林的逻辑结构,把家谱中的每个人抽象为树状结构中的一个节点,同时,把每个人的相关属性(如父子关系,姓名、世系关系、婚配、子女、功名、塋地、墓志、出嗣、入嗣、双承等)定义为节点的域,这样某一家族的家谱从逻辑上看是一棵树,整个家族的族谱就抽象为由很多树组成的森林。使用XML文档存储家谱数据,按照双亲存储结构(一种利用计算机存储树状逻辑结构数据的方法,其原理是用一组连续的空间存储树中的所有节点,同时在每个节点中附设一个域,该域的内容指示其双亲节点的位置)的方式进行存储,这样就把家谱中每个人定义为XML文档的一个元素节点,每个人的相关属性定义为该节点的子节点,其中“父子关系”子节点存放其父亲节点的位置。具体加工中,可以只根据家谱中单一或者上下页面的信息依据XML元素节点及其域依次逐页录入,而不必关心由于页面限制而被打断的节点之间世系关系。生成了这种XML文档之后,可以根据其中存储的节点数据,利用计算机程序来计算出家谱中各家族的世系关系以及每个人的世系关系,并把这种计算结果在信息缀合后保存到相应节点的世系关系属性域中。由于古代家谱中同族在取名的时候严格避讳重名的问题,因此我们在处理古代家谱的数字化过程中,采用这种方法十分有效。最后,可以将XML文件中存储的家谱节点数据建立到索引库中,以便利数字化应用。在建立索引库的过程中,不对节点的姓名字段做分词处理,即将节点人名域中的每个字(二字节或者四字节汉字)以单字符处理,而不是以词组的方式处理。同时使用支持Unicode四字节编码东亚表意文字的搜索引擎对家谱索引库进行快速、高效的检索。在搜索结果中按“目录树结构”方式呈现世系关系,并可以查看“目录树结构”中每个人的世系关系。本专利技术的有益效果是使用支持四字节超大字符集和依据家谱中每个人作为节点的设计作为家谱的数字化加工的基础,按照家谱的逻辑结构(树状或森林结构),把数据存储到具有这逻辑关系的XML格式文件中,根据XML文件中的数据及逻辑关系,可以方便地利用计算机计算出家谱中每个人(也就是每个节点)的世系关系。并把这些在节点结构中的数据建立索引库,提供检索。对家谱中每个人的世系关系以直观,友好的“目录树结构”方式呈现出来。这一系列处理过程很好地解决了家谱数字化所遇到的几种特殊难题,加速了家谱数字化进程,使得大量家谱进行数字化处理与管理成为可能,并且在很大程度上提高了家谱研究者的效率,对于古代家谱的整理、保护、开发与利用具有非常重要的意义。附图说明图1本图,以及下面的图2、3,系采自一部民国初年修订的山东即墨地区(现青岛市四方区)《王氏族谱》。该图是这本族谱中的第27页的书影。与大多数家谱一样,谱牒一般每页都分成五行表示五代,又称五福。在这个页面上可以看到由于版面的限制,王有强之子王柱的信息被中止记录了。图2《王氏族谱》第72页的书影。显示第27页的王柱及其子孙的世系关系。但是到王柱的第四代孙,信息又一次被放置在族谱的其他页面了。图3《本文档来自技高网
...

【技术保护点】
一种关于家谱数字化的方法,其特征是:能够把各种类型的家谱转换成含有四字节超大字符集汉字的统一格式的电子文档,并利用计算机对这些文档进行管理。

【技术特征摘要】

【专利技术属性】
技术研发人员:邓智伟李延华王宏源
申请(专利权)人:王宏源
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1