一种对电子图书进行快速语义标注的方法和系统技术方案

技术编号:7084428 阅读:253 留言:0更新日期:2012-04-11 18:40
一种对电子图书进行快速语义标注的方法和系统,其特征在于包括如下步骤:(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书文件包。

【技术实现步骤摘要】

本专利技术涉及电子图书数字出版
,特别是涉及一种对电子图书进行快速语义标注的方法和系统
技术介绍
数字出版的核心竞争力是对数字内容的快速检索与方便查阅,而快速检索与方便查阅的核心是语义检索,因此,基于语义检索的语义标注技术是数字出版的核心技术。实现语义标注的技术不同,造成的语义标注的加工效率与成本也不同。目前已有的技术对语义标注的加工效率很低,成本很高。要解决好效率与成本的问题,就要在技术上解决,技术手段主要与两个技术问题有关,一个是电子书的拆分结构如何设计,各种排版软件编排的图书(或期刊)具有不同的版式特点,数字加工需要把这些图书拆分为不同粒度的单元,目前所有的拆分方法都面临着低效率的问题,需要过多的人工干预。另一个就是语义标注如何设计。不同的设计方案产生不同的应用效果与加工成本。最严格的技术方案是可以对电子图书的每一个细节(比如,像词这样的细节)进行语义的标注,这种技术方案的特点是应用范围广,缺点是加工成本不容易降得很低。但是实际情况是,有一部分应用并不需要对词、段这种细节进行语义标注,可能对节以上单元进行标注就可以满足市场需要了。本专利技术方案就是针对这类应用而设计的,可以进一步提高加工效率,降低成本。
技术实现思路
鉴于现有技术的缺陷,本专利技术提供一种对电子图书进行快速语义标注的方法,其特征在于包括如下步骤(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书。根据本专利技术所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件以XML形式存在,其内容形式采用电子图书的传统目录形式,并可以被第三方工具识别出。根据本专利技术所述的对电子图书进行快速语义标注的方法,其特征在于每一个XML 目录元素具有结构属性,分别为标题内容与页码范围。根据本专利技术所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件的生成包括如下步骤(11)制订电子书稿在排版过程中对段落样式的命名的规范; (12)根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;(13)把无层次关系的XML文件按前缀大小关系重组建立新的章节元素,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。根据本专利技术所述的对电子图书进行快速语义标注的方法,其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法,并且均通过手工填加。根据本专利技术所述的对电子图书进行快速语义标注的方法,其特征在于还包括如下步骤(5)建立一个数据库,把所述目录结构文件和所述多个页文件保存于数据库中;(6) 通过语义检索在目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。此外,本专利技术还提供了一种与上述对电子图书进行快速语义标注方法相对应的系统。本专利技术章节目录是基于XML技术来实现,XML的结构性强、易于计算机程序读写, 所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式,每一维陈列反映了该章节的一个完整语义,因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理,全面提高了对电子图书进行拆分的效率,同时也不影响到检索效果。同时配合上述拆分方法,设计出一种通过对电子图书的目录结构进行简单的语义标注,提高了语义标注的效率。附图说明图1是本专利技术对电子图书进行快速语义标注的方法的数据处理流程图。 具体实施例方式为使本专利技术的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1是本专利技术对电子图书进行快速语义标注的方法的数据处理流程图,其具体包括如下步骤(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;现有技术中都是在电子图书内部进行结构描述,电子书中即有内容又有结构信息。而本专利技术则完全放弃在电子图书内容部分中描述结构,而是采用另外建立目录文件的形式,通过一个外部的目录文件来反映出了电子图书的基本结构从而以独立于电子图书的方式以目录结构文件的方法来描述图书的结构。可以通过各种方法建立一个目录结构文件,这个目录结构文件是以XML形式存在,内容形式可以采用电子图书(或期刊)的传统目录形式。与一般意义的目录不同的地方是以下几个特点I本目录是有结构的,是可以被第三方工具识别出结构信息的。此目录文件中的 XML元素分为章、节、小节、三级节……,并依次向下嵌套。II每一个目录元素具有结构属性,分别为标题内容与页码范围。III每一个目录文件还具有该图书的版权内容,内容应用都柏林标准。优选地,本专利技术目录结构文件生成通过如下方式进行(11)制订电子书稿在排版过程中对段落样式的命名的规范;要求在排版图书时,把书稿中同一级的标题均使用同样的段落样式名前缀,所有章节标题的段落样式的前缀按自然数N,依次排列。如,1-,2-,3_,……;所有章标题的段落样式名均使用1-作为样式名的前缀,形如I-XXXX ;所有节标题的段落样式名均使用2-作为样式名的前缀,形如2-XXXX ;所有小节标题的段落样式名均使用3-作为样式名的前缀,形如3-XXXX ;依次类推。(12)根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;该步骤可以通过开发一个目录文件提取的计算机程序来实现,通过计算机程序,根据段落样式前缀特点,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在有页码信息。(13)把无层次关系的XML文件按前缀大小关系重组建立新的章节元素,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。这样一个与图书页码信息有关的目录文件就形成了。(2)在目录结构文件的基础上对目录元素进行语义标注;本专利技术对目录结构进行语义描述的方法在目录结构文件的基础上对目录元素进行标注,不再进入到图书的具体内容中进行语义标注,即,在电子图书外部进行标注,由于图书的每一个章节反映了不同粒度的,相对完整的内容,因此可以对章节进行语义内容的概括。这一步必须是手工填加,实现对目录内容的概括过程。具体实现可以采用如下方法“1、多元数组法每一个目录元素的语义标注方法为对于元素S,用DD描述语义特征.DD = U {OP i},OP i = (0 i,A i, AK i, C i)S卩,用多个属性组合(OP i)从其用途、意义、内容概括、相关问题等多方面来描述片断⑶的。其中,DD为功能语义描述集合;它由本文档来自技高网...

【技术保护点】
1.一种对电子图书进行快速语义标注的方法,其特征在于包括如下步骤:(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书文件包。

【技术特征摘要】

【专利技术属性】
技术研发人员:张训军
申请(专利权)人:北京中科希望软件股份有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1