一种基于多媒体数据要素OFD文档的预索引生成方法技术

技术编号：39316452 阅读：20 留言：0更新日期：2023-11-12 15:59

本发明专利技术公开了一种基于多媒体数据要素OFD文档的预索引生成方法，它涉及软件技术领域。针对全要素信息进行预先提取，形成包含对应OFD版式文档全要素信息的数据包，提取的过程也将除文字之外的图片、音频、视频、附件信息进行文字化，业务开发者读取该数据包，在业务系统所使用的搜索引擎中建立全要素索引，实现OFD版式文档的全要素信息检索。一种基于多媒体数据要素OFD文档的预索引生成方法用于提取OFD版式文件中的全文内容，生成利于建立检索索引的数据结构，为全文检索引擎等提供全面数据支持，降低OFD全文检索实施难度，提升其实施质量和效果，应用前景广阔。应用前景广阔。应用前景广阔。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多媒体数据要素OFD文档的预索引生成方法

[0001]一种基于多媒体数据要素OFD文档的预索引生成方法涉及的是软件
，具体涉及一种基于多媒体数据要素OFD文档的预索引生成方法。

技术介绍

[0002]版式文档是最为通用的一种文档形态，其在不同的计算机软硬件条件下稳定性较高，常用于文件的存档和信息发布。版式文档格式国家标准OFD是国家2016年10月发布，于2017年5月正式实施的自主知识产权版式文档格式标准。自主标准、自主知识产权的原生需求日益突出，随着OFD版式文档规范逐渐深入应用在各行各业，相当部分的公文、证照、凭证、报告等高价值文档以OFD格式存储，其中OFD版式文档内容的全要素检索功能已经成为文档利用场景的迫切需求，OFD版式文档的全要素是指构成文档信息所需的文字、图片、图形、音频、视频以及作为附件存入OFD版式文档中的其他文件。
[0003]常规的对OFD文件进行全文检索的方法是获取文档的文字数据，提取版式文档中的文字内容，对文字建立数据索引，使用业界常见的搜索引擎进行内容的全文检索，进而提供检索服务。这种方法索引的创建对内容提取有强依赖性，需要对OFD文档进行解析，根据OFD规范所定义的文档、页面、元素等概念汇总整理形成文本流而实现，具有一定的局限性：一方面，文字内容不能完整反映版式文档中的所有内容，另一方面，如此要求也限定了文档格式的多样化应用。文档中的图形、图像、音视频等，对文档的信息表达也十分关键。对文档中包含的图像、音视频和附件等其他要素的检索，存在文档质量参差不齐、技术实现...

【技术保护点】

【技术特征摘要】
1.一种基于多媒体数据要素OFD文档的预索引生成方法，其特征在于，其步骤为：(1)定义索引数据包，核心属性结构有字典、文档内容定义、内容归属信息、容器信息；(2)解析OFD文件提取元数据信息，生成步骤(1)所描述的数据包片段；(3)解析OFD文件提取所有页面中的文字信息，生成步骤(1)所描述的数据包片段；(4)解析OFD文件基于OCR技术通过识别图片进行预处理，切割图片中文字并识别，提取所有页面图片中的文字信息进行版面恢复，通过上下文关系校验生成步骤(1)所描述的数据包片段；(5)解析OFD文件基于ASR技术提取所有页面音频，提取文字信息，生成步骤(1)所描述的数据包片段；(6)解析OFD文件基于OpenCV技术提取所有页面中视频，通过调用OpenCV的库函数，识别视频中每一帧画像，通过步骤(4)实现文字提取，生成步骤(1)所描述的数据包片段；(7)解析OFD文件基于FFMpeg技术提取所有页面视频中的音频，解析出视频流，并输出为音频文件，通过步骤(5)实现文字提取，生成步骤(1)所描述的数据包片段；(8)解析OFD文件提取所有注释中的文字信息，生成步骤(1)所描述的数据包片段；(9)解析OFD文件基于OCR技术提取所有注释图片，通过识别注释中图片进行预处理，切割图片中文字并识别，提取所有注释图片中的文字信息并进行版面恢复，通过上下文关系校验生成步骤(1)所描述的数据包片段；(10)解析OFD文件基于ASR技术提取所有注释音频，提取文字信息，生成步骤(1)所描述的数据包片段；(11)解析OFD文件基于OpenCV技术提取所有注释视频中的画面图像，通过调用opencv的库函数，识别视频中每一帧画像，通过步骤(9)实现文字提取，生成步骤(1)所描述的数据包片段；(12)解析OFD文件基于FFMpeg技术提取所有注释视频中的音频，解析出视频流，并输出为音频文件，通过步骤(10)实现文字提取，生成步骤(1)所描述的数据包片段；(13)解析OFD文件提取所有附件中的文字信息，生成步骤(1)所描述的数据包片段；(14)解析OFD文件基于OCR技术提取所有附件图片，通过识别附件中图片进行预处理，切割图片中文字并识别，提取所有附件图片中的文字信息并进行版面恢复，通过上下文关系校验生成步骤(1)所描述的数据包片段；(15)解析OFD文件基于ASR技术提取所有附件音频，提取文字信息，生成步骤(1)所描述的数据包片段；(16)解析OFD文件基于OpenCV技术，通过调用opencv的库函数，提取所有附件视频中的画面图像，识别视频中每一帧画像，通过步骤(14)实现文字提取，生成步骤(1)所描述的数据包片段；(17)解析OFD文件基于FFMpeg技术提取所有附件视频中的音频，解析出视频流，并输出为音频文件，通过步骤(15)实现文字提取，生成步骤(1)所描述的数据包片段；(18)解析OFD文件附件中的OFD文件实施步骤(2)至步骤(18)的流程，生成步骤(1)所描述的数据包片段；(19)对步骤(2)至步骤(18)所提取的文字进行概率语言模型分词，整理成为不重复的字、单词、成语、短语形成步骤(1)所定义的数据包中的字典数据，并对步骤(2)至步骤(18)
生成的文字片段重新整理为字典索引，最终输出一种基于多媒体数据要素OFD文档的预索引生成方法所定义的预索引数据包文件，即OFD文档预索引。2.根据权利要求1所述的一种基于多媒体数据要素OFD文档的预索引生成方法，其特征在于，所述的步...

【专利技术属性】
技术研发人员：陈亚军，徐志东，杨吉云，王雷，张程，
申请(专利权)人：中国电子技术标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人