一种对标记信息进行处理的方法及系统技术方案

技术编号:23363511 阅读:26 留言:0更新日期:2020-02-18 17:28
本发明专利技术公开了一种对标记信息进行处理的方法及系统,其中方法包括:对待处理的电子文件进行解析以根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;息对节点树结构中相关联的每个对象节点进行标记,并确定每个标记项的单元标识、字节偏移量和字节数量;以及获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。

A method and system for processing marking information

【技术实现步骤摘要】
一种对标记信息进行处理的方法及系统
本专利技术涉及电子书
,并且更具体地,涉及一种对标记信息进行处理的方法及系统。
技术介绍
电子书出版物(EPub,ElectronicPublication)是一种电子书格式标准,并且属于一种可以自动重新排版的内容。文字内容可以根据阅读设备的特性,以最适合阅读的方式进行显示。EPub电子书内部使用了超文本标记语言HTML或可扩展超文本标记语言XHTML格式的文件来包含文字、图片等多媒体资源。电子书用户终端软件解析EPub并从HTML或XHTML文件中抽取文字和图片,从而将文字和图片在用户终端上绘制展示。电子书划线笔记是用户在使用电子书用户终端浏览EPub电子书时,在电子书用户终端上对电子书中内容进行选择划线或记录的笔记记录。用户终端与划线笔记服务器记录每条划线笔记记录的位置(包括起始点和终止点)。用户在关闭电子书用户终端或切换设备等操作后,再次打开电子书用户终端时,用户终端加载原有的划线笔记数据并进行绘制显示。此外,在电子书用户终端上用户可以添加、修改和删除该用户的划线笔记。然而在EPub电子书的现有技术中存在以下技术问题:用户终端显示的文字与从XHTML抽取的文字不匹配的情况,以及只能对EPub电子书中的文字部分进行划线笔记,无法对EPub电子书中的图片等非文字的文档对象模型(DOM,DocumentObjectModel)节点内容进行划线笔记操作。
技术实现思路
为了解决EPub电子书划线笔记准确定位的技术问题,本专利技术提供一种EPub电子书划线笔记定位方法,通过解析EPub电子书中的HTML或XHTML文件,构建DOM节点树结构,并构建HMTL或XHTML文件中内容节点(文字或图片)在文件中的字节偏移(byteOffset)映射表。电子书划线笔记定位方法根据映射表使得用户能够在EPub电子书用户终端上进行增加、修改和删除划线笔记,随后将用户操作生成的划线笔记数据,以某种特定标记展示在电子书用户终端上。根据本专利技术的一个方面,提供一种对标记信息进行处理的方法,所述方法包括:对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。在对待处理的电子文件进行解析之前还包括:从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。其中对象节点为文档对象模型节点。位置信息包括:单元标识、字节偏移量和字节数量。所述对所获取的标记信息进行解析以确定多个标记项之前还包括:确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。在根据样式信息和单元标识对每个标记项进行显示之后,还包括:获取用户输入的针对于标记信息的修改信息;确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。还包括,将所述经过修改的标记信息在本地缓存中进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。还包括,获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。在获取每个标记项的样式信息后,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。还包括,将经过更新的渲染树结构在本地缓存中进行存储。根据本专利技术的另一方面,提供一种对标记信息进行处理的系统,所述系统包括:解析装置,对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;生成装置,根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;关联装置,对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;标记装置,根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及显示装置,获取每个标记项的样式信息,根据样式信息和单元标识量对每个标记项进行显示。还包括获取装置,从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。其中对象节点为文档对象模型节点。位置信息包括:单元标识、字节偏移量和字节数量。还包括检索装置,确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。还包括修改装置,获取用户输入的针对于标记信息的修改信息;确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。还包括本地缓存,将所述经过修改的标记信息进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。关联装置还用于获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。还包括更新装置,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。还包括本地缓存装置,将经过更新的渲染树结构进行存储。本专利技术的EPub电子书划线笔记定位方法,通过解析EPub电子书中的HTML或XHTML文件,构建DOM节点树结构,并构建HMTL或XHTML文件中内容节点(文字或图片)在文件中的字节偏移(byteOffset)映射表。电子书划线笔记定位方法根据映射表使得用户能够在EPub电子书用户终端上进行增加、修改和删除划线笔记,随后将用本文档来自技高网...

【技术保护点】
1.一种对标记信息进行处理的方法,所述方法包括:/n对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;/n根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;/n对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;/n根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及/n获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。/n

【技术特征摘要】
1.一种对标记信息进行处理的方法,所述方法包括:
对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;
根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;
对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。


2.根据权利要求1所述的方法,在对待处理的电子文件进行解析之前还包括:
从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。


3.根据权利要求1所述的方法,其中对象节点为文档对象模型节点。


4.根据权利要求1所述的方法,位置信息包括:单元标识、字节偏移量和字节数量。


5.根据权利要求1所述的方法,所述对所获取的标记信息进行解析以确定多个标记项之前还包括:
确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。


6.根据权利要求1所述的方法,在根据样式信息和单元标识对每个标记项进行显示之后,还包括:
获取用户输入的针对于标记信息的修改信息;
确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。


7.根据权利要求6所述的方法,还包括,将所述经过修改的标记信息在本地缓存中进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。


8.根据权利要求6所述的方法,还包括,
获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。


9.根据权利要求1所述的方法,在获取每个标记项的样式信息后,根据每个标记项的样式信息、单元标识、字节偏移量和...

【专利技术属性】
技术研发人员:陈杰清邓鑫鑫沈仁奎
申请(专利权)人:北京思维造物信息科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1