System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及检索与索引,特别是涉及一种在线多版本文献内容定位方法、装置、设备及介质。
技术介绍
1、在网络互联环境中(包括局域网、互联网、移动互联网等),不同用户可能拥有“同一文献”的“不同版式”。此处的“同一文献”是指:作者、题目及内容是相同的文献;此处的“不同版式”是指:文献的排版格式、文件类型等方面可能存在不同之处。
2、对同一篇电子数字型文献而言,不同用户可能拥有不同的版式,例如:预印版(preprint):文献还未在正式出版物上发表,而出于和同行交流目的,自愿先在学术会议上或通过互联网发布的版本;预出版(online first):文献经评审流程已确定可以出版,但为了达到快速传播目的,而在网络上优先发布的版本;后印版(postprint):文献经评议审核流程后正式出版的发行版本,也称为印出版;标识版:文献在传播过程中,数据库厂商对文献添加电子水印、签名等标记的版本。
3、然而目前的多版本文档管理中,基本上仅仅是对文档本身进行了关联,并没有对文档内部的各个元素进行位置映射,这限制了多版本文献间的协同处理能力。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种在线多版本文献内容定位方法、装置、设备及介质。
2、一种在线多版本文献内容定位方法,所述方法包括:
3、构建文档位置模型;其中所述文档位置模型用于描述文档中包含的文档元素以及每个文档元素的位置信息;
4、根据所述文档位置模型构建文档元素索引结构模型;所述
5、获取待检索的文档元素在多版本文献中的内容,根据所述文档元素查询其在所述排序数组索引空间的位置,并且通过指针得到所述元素位置链;
6、遍历所述元素位置链以及所述文档位置模型,得到待检索的文档元素在多版本文献中的位置。
7、在其中一个实施例中,还包括:确定文档中的文档元素;所述文档元素是用于管理版式相关的部件;从所述文档的起始位置开始,对所述文档元素进行编号,得到文档元素序列;对所述文档元素序列中文档元素的起始位置采用特殊标记进行标记,并将标记后的所述文档元素序列进行二进制化,得到二进制数据流;根据所述特殊标记在所述二进制数据流中距离起始位置的字节数,确定当前文档元素的位置,从而得到描述文档中包含的文档元素以及每个文档元素的位置信息的文档位置模型。
8、在其中一个实施例中,还包括:对所述文档元素进行编码;采用关联识别方式对文档进行关联,得到文档集合;所述文档集合中包括多个内容相同但是文档版式不同的文档;对于每一版式的文档,分为一个数字编号作为文档的版式编号,并且建立所述版式编号与文档版式的映射关系表;针对所述文档元素,进行哈希处理,并将哈希处理结果进行数字编码,得到第一数字编号;将所述第一数字编号和所述版式编号进行连接,得到所述文档元素的数字编码。
9、在其中一个实施例中,还包括:获取所述文档集合中所有文档元素的数量,并将所述文档元素按照升序或者降序进行排列,得到文档元素序列;通过线性函数建立所述文档元素的所述数字编码与排序数组索引空间的映射关系,以使所述数字编码输入所述线性函数时,可以输出所述文档元素在所述排序数组索引空间中的位置;其中,所述线性函数是通过线性回归模型训练得到的。
10、在其中一个实施例中,还包括:通过将所述文档元素序列中的每个元素链接至指针,建立与所述元素位置链的关联。
11、在其中一个实施例中,还包括:通过所述文档位置模型计算每个文档元素在所述文档集合中的文档的所述位置信息;对于每个文档,对其内容进行哈希处理,并将哈希处理结果进行数字化,得到第二数字编码,将所述版式编号和所述第二数字编码进行连接,得到每个文档的文档标识;获取每个文档的版式类型,对于每个文档元素,所述文档标识、所述版式类型、预先获取的文档对应的url以及所述位置信息,构成了所述文档元素的元素位置链。
12、在其中一个实施例中,还包括:获取待检索的文档元素在多版本文献中的内容,查询待检索的文档元素的数字编码;将待检索的文档元素的数字编码输入所述线性函数中,得到待检索的文档元素正在排序数组索引空间中的位置;根据待检索的文档元素正在排序数组索引空间中的位置,链接至待检索的文档元素的元素位置链;遍历所述元素位置链,输出所述文档标识、所述版式类型、预先获取的文档对应的url以及所述位置信息;从所述url获取所述文档元素对应的文档,根据所述文档位置模型,得到文档对应的二进制数据流;根据所述位置信息查询得到待检索的文档元素,对所述二进制数据流进行反序列化后,得到待检索的文档元素在多版本文献中的位置及内容。
13、一种在线多版本文献内容定位装置,所述装置包括:
14、文档位置模型构建模块,用于构建文档位置模型;其中所述文档位置模型用于描述文档中包含的文档元素以及每个文档元素的位置信息;
15、文档元素索引结构模型构建模块,用于根据所述文档位置模型构建文档元素索引结构模型;所述文档元素索引结构模型包括元素索引结构和元素位置链,所述元素索引结构中的元素通过指针指向所述元素位置链中的链表;其中,所述元素索引结构是通过将文档集合中包含的文档元素按照排序成数组映射至排序数组索引空间得到的;所述元素位置链是根据每个文档元素所对应的文档信息以及所述位置信息构建的;
16、检索模块,用于获取待检索的文档元素在多版本文献中的内容,根据所述文档元素查询其在所述排序数组索引空间的位置,并且通过指针得到所述元素位置链;遍历所述元素位置链以及所述文档位置模型,得到待检索的文档元素在多版本文献中的位置。
17、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
18、构建文档位置模型;其中所述文档位置模型用于描述文档中包含的文档元素以及每个文档元素的位置信息;
19、根据所述文档位置模型构建文档元素索引结构模型;所述文档元素索引结构模型包括元素索引结构和元素位置链,所述元素索引结构中的元素通过指针指向所述元素位置链中的链表;其中,所述元素索引结构是通过将文档集合中包含的文档元素按照排序成数组映射至排序数组索引空间得到的;所述元素位置链是根据每个文档元素所对应的文档信息以及所述位置信息构建的;
20、获取待检索的文档元素在多版本文献中的内容,根据所述文档元素查询其在所述排序数组索引空间的位置,并且通过指针得到所述元素位置链;
21、遍历所述元素位置链以及所述文档位置模型,得到待检索的文档元素在多版本文献中的位置。
22、一种计算机可读存储介质,其本文档来自技高网...
【技术保护点】
1.一种在线多版本文献内容定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述构建文档位置模型包括:
3.根据权利要求1所述的方法,其特征在于,在根据所述文档位置模型构建文档元素索引结构模型之前,还包括:
4.根据权利要求3所述的方法,其特征在于,构建元素索引结构的步骤包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求4所述的方法,其特征在于,构建元素位置链的步骤包括:
7.根据权利要求6所述的方法,其特征在于,获取待检索的文档元素在多版本文献中的内容,根据所述文档元素查询其在所述排序数组索引空间的位置,并且通过指针得到所述元素位置链,遍历所述元素位置链以及所述文档位置模型,得到待检索的文档元素在多版本文献中的位置,包括:
8.一种在线多版本文献内容定位装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种在线多版本文献内容定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述构建文档位置模型包括:
3.根据权利要求1所述的方法,其特征在于,在根据所述文档位置模型构建文档元素索引结构模型之前,还包括:
4.根据权利要求3所述的方法,其特征在于,构建元素索引结构的步骤包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求4所述的方法,其特征在于,构建元素位置链的步骤包括:
7.根据权利要求6所述的方法,其特征在于,获取待检索的文档元素在多版...
【专利技术属性】
技术研发人员:廉蔺,李驰,文治恒,周梓龙,王剑,
申请(专利权)人:湖南汇智兴创科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。