基于大数据的文档智能检索方法技术

技术编号:36407740 阅读:15 留言:0更新日期:2023-01-18 10:16
本发明专利技术提供了一种基于大数据的文档智能检索方法,涉及文档检索技术领域。本发明专利技术通过本发明专利技术的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。到较好的检索结果。到较好的检索结果。

【技术实现步骤摘要】
基于大数据的文档智能检索方法


[0001]本专利技术涉及文档检索
,具体涉及一种基于大数据的文档智能检索方法。

技术介绍

[0002]文档检索是指从某一数据库中查找达到所需要的信息资料过程。目前的智能检索主要是针对文字为主的文档进行关键字检索。这种方式针对大多数word、PDF文件有着较好的检索效果。
[0003]但针对PPT文档这种文字占比相对较少,其很多内容与图片具有较强关联的文档,普通的关键字检索并不能起到很好的效果,针对上述问题,目前亟需一种能够适用于PPT文档的智能检索方法。

技术实现思路

[0004](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于大数据的文档智能检索方法,解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
[0005](二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于大数据的文档智能检索方法,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;利用大数据训练图像描述模型,得到训练好的图像描述模型;将PPT文档中的图像对象划分为内容图像和装饰图像;基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。
[0006]进一步的,所述图像描述模型采用基于CNN和LSTM的网络模型,且采用Flickr_30K数据集对图像描述模型进行训练。
[0007]进一步的,所述将PPT文档中的图像对象划分为内容图像和装饰图像,包括:获取各个图像对象在对应PPT文档中出现的次数和分布的页数;若满足该图像对象出现的次数超过第一阈值或该图像对象分布的页数数量超过第二阈值,则将其标记为装饰图像;否则,标记为内容图像。
[0008]进一步的,所述第一阈值为3次,第二阈值为该PPT文档总页数的50%。
[0009]进一步的,所述获取各页中各个内容图像的未遮挡面积,包括:基于PPT文档的页面构建参考坐标系;将各个对象的尺寸信息、位置信息转换为在参考坐标系下的坐标区间;获取该对象与位于其图层上方的所有对象的重合区域,将所有重合区域取并集后,得到内容图像的未遮挡区域;计算未遮挡区域的面积。
[0010]进一步的,所述检索结果包括相似度排名前10的PPT文档以及检索语句在各个PPT文档中对应的页数。
[0011]进一步的,所述基于余弦相似度计算得到描述文本与检索语句的相似度。
[0012](三)有益效果本专利技术提供了一种基于大数据的文档智能检索方法。与现有技术相比,具备以下有益效果:本专利技术通过本专利技术的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术实施例的流程图;图2为本专利技术实施例提取的尺寸信息、位置信息示意图;图3为本专利技术实施例提取的图层信息示意图;图4为计算未遮挡区域的面积的示意图。
具体实施方式
[0015]为使本专利技术实施例的目的、技术方案和优点更加清楚,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]本申请实施例通过提供一种基于大数据的文档智能检索方法,解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
[0017]为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0018]实施例1:
如图1所示,本专利技术提供了一种基于大数据的文档智能检索方法,该方法包括:一种基于大数据的文档智能检索方法,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;利用大数据训练图像描述模型,得到训练好的图像描述模型;将PPT文档中的图像对象划分为内容图像和装饰图像;基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。
[0019]本实施例的有益效果为:通过本专利技术的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。
[0020]下面对本专利技术实施例的实现过程进行详细说明:S1、在PPT文档导入数据库时,获取该PPT文档中各页的对象信息。
[0021]在具体实施时,PPT文档的各页中的对象包括图像对象、文本框对象、形状对象这三种对象类型,其中,文本框对象为用户输入的文本数据,形状对象为用户构建的多边形(一般为纯色或是渐变色),图像对象为用户插入的图像数据。
[0022]具体的,对象信息包括每页包含的对象文件,以及对象属性,即在保存PPT文档的同时,在保存一份包含所有对象及对象属性的数据。
[0023]所述对象属性包括:尺寸信息、位置信息、图层信息等;且对象信息可以由用户与PPT文档同步导入,也可从PPT文档中进行提取,对于尺寸、位置等信息,如图2所示,可以直接从PPT中的对象属性中提取,而对于图层信息,在用户操作规范的前提下(即按从底层至顶层依次插入图像)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的文档智能检索方法,其特征在于,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;利用大数据训练图像描述模型,得到训练好的图像描述模型;将PPT文档中的图像对象划分为内容图像和装饰图像;基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。2.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述图像描述模型采用基于CNN和LSTM的网络模型,且采用Flickr_30K数据集对图像描述模型进行训练。3.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述将PPT文档中的图像对象划分为内容图像和装饰...

【专利技术属性】
技术研发人员:常智山孟超越程建文周志扬肖丽王海霞王伟
申请(专利权)人:铭台北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1