基于大数据的文档智能检索方法技术

技术编号：36407740 阅读：32 留言：0更新日期：2023-01-18 10:16

本发明专利技术提供了一种基于大数据的文档智能检索方法，涉及文档检索技术领域。本发明专利技术通过本发明专利技术的方法，用户在输入检索语句后，系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档，且在获取PPT文档各页的描述文本时，本申请并非对所有页面中所有的图像都进行描述，过多的描述文本会造成相互干扰，进而使得检索结果不理想，而是根据用户习惯以及图像特性，对其进行筛选后得到目标图像，再对目标图像进行描述作为该页的描述文本，进而与PPT进行关联，能够得到较好的检索结果。到较好的检索结果。到较好的检索结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据的文档智能检索方法

[0001]本专利技术涉及文档检索
，具体涉及一种基于大数据的文档智能检索方法。

技术介绍

[0002]文档检索是指从某一数据库中查找达到所需要的信息资料过程。目前的智能检索主要是针对文字为主的文档进行关键字检索。这种方式针对大多数word、PDF文件有着较好的检索效果。
[0003]但针对PPT文档这种文字占比相对较少，其很多内容与图片具有较强关联的文档，普通的关键字检索并不能起到很好的效果，针对上述问题，目前亟需一种能够适用于PPT文档的智能检索方法。

技术实现思路

[0004]（一）解决的技术问题针对现有技术的不足，本专利技术提供了一种基于大数据的文档智能检索方法，解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
[0005]（二）技术方案为实现以上目的，本专利技术通过以下技术方案予以实现：一种基于大数据的文档智能检索方法，该方法包括：在PPT文档导入数据库时，获取该PPT文档中各页的对象信息；所述对象信息包括每页包含的对象文件，以及对象属性，且所述对象属性包括：尺寸信息、位置信息、图层信息；对象包括图像对象、文本框对象、形状对象；利用大数据训练图像描述模型，得到训练好的图像描述模型；将PPT文档中的图像对象划分为内容图像和装饰图像；基于PPT文档的对象信息，获取各页中各个内容图像的未遮挡面积，并基于未遮挡面积的排序确定该页的目标图像；利用训练好的图像描述模型获取目标图像的描述文本，并将描述文本与对应的PPT文档进行关联；获取用户输...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的文档智能检索方法，其特征在于，该方法包括：在PPT文档导入数据库时，获取该PPT文档中各页的对象信息；所述对象信息包括每页包含的对象文件，以及对象属性，且所述对象属性包括：尺寸信息、位置信息、图层信息；对象包括图像对象、文本框对象、形状对象；利用大数据训练图像描述模型，得到训练好的图像描述模型；将PPT文档中的图像对象划分为内容图像和装饰图像；基于PPT文档的对象信息，获取各页中各个内容图像的未遮挡面积，并基于未遮挡面积的排序确定该页的目标图像；利用训练好的图像描述模型获取目标图像的描述文本，并将描述文本与对应的PPT文档进行关联；获取用户输入的检索语句，并获取各个描述文本与检索语句的相似度，基于相似度排序生成检索结果。2.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述图像描述模型采用基于CNN和LSTM的网络模型，且采用Flickr_30K数据集对图像描述模型进行训练。3.如权利要求1所述的一种基于大数据的文档智能检索方法，其特征在于，所述将PPT文档中的图像对象划分为内容图像和装饰...

【专利技术属性】
技术研发人员：常智山，孟超越，程建文，周志扬，肖丽，王海霞，王伟，
申请(专利权)人：铭台北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人