一种基于多媒体数据要素OFD文档的预索引生成方法技术

技术编号:39316452 阅读:13 留言:0更新日期:2023-11-12 15:59
本发明专利技术公开了一种基于多媒体数据要素OFD文档的预索引生成方法,它涉及软件技术领域。针对全要素信息进行预先提取,形成包含对应OFD版式文档全要素信息的数据包,提取的过程也将除文字之外的图片、音频、视频、附件信息进行文字化,业务开发者读取该数据包,在业务系统所使用的搜索引擎中建立全要素索引,实现OFD版式文档的全要素信息检索。一种基于多媒体数据要素OFD文档的预索引生成方法用于提取OFD版式文件中的全文内容,生成利于建立检索索引的数据结构,为全文检索引擎等提供全面数据支持,降低OFD全文检索实施难度,提升其实施质量和效果,应用前景广阔。应用前景广阔。应用前景广阔。

【技术实现步骤摘要】
一种基于多媒体数据要素OFD文档的预索引生成方法


[0001]一种基于多媒体数据要素OFD文档的预索引生成方法涉及的是软件
,具体涉及一种基于多媒体数据要素OFD文档的预索引生成方法。

技术介绍

[0002]版式文档是最为通用的一种文档形态,其在不同的计算机软硬件条件下稳定性较高,常用于文件的存档和信息发布。版式文档格式国家标准OFD是国家2016年10月发布,于2017年5月正式实施的自主知识产权版式文档格式标准。自主标准、自主知识产权的原生需求日益突出,随着OFD版式文档规范逐渐深入应用在各行各业,相当部分的公文、证照、凭证、报告等高价值文档以OFD格式存储,其中OFD版式文档内容的全要素检索功能已经成为文档利用场景的迫切需求,OFD版式文档的全要素是指构成文档信息所需的文字、图片、图形、音频、视频以及作为附件存入OFD版式文档中的其他文件。
[0003]常规的对OFD文件进行全文检索的方法是获取文档的文字数据,提取版式文档中的文字内容,对文字建立数据索引,使用业界常见的搜索引擎进行内容的全文检索,进而提供检索服务。这种方法索引的创建对内容提取有强依赖性,需要对OFD文档进行解析,根据OFD规范所定义的文档、页面、元素等概念汇总整理形成文本流而实现,具有一定的局限性:一方面,文字内容不能完整反映版式文档中的所有内容,另一方面,如此要求也限定了文档格式的多样化应用。文档中的图形、图像、音视频等,对文档的信息表达也十分关键。对文档中包含的图像、音视频和附件等其他要素的检索,存在文档质量参差不齐、技术实现路线多、难度大等困难,常常影响实施效果。
[0004]另外,传统的流程要求业务系统自行解析获取,要求开发者深入理解文档格式,对专业性要求较高;其次是OFD文档所承载的信息是多元的,除文本信息之外还包含了元数据、语义、附件、音频、视频、以及图像等信息,这些信息的提取相对复杂,业务系统不能快速获取OFD全要素信息。在OFD文档利用方面,全要素信息的检索是OFD文档利用的关键方面。基于此,开发一种基于多媒体数据要素OFD文档的预索引生成方法尤为必要。

技术实现思路

[0005]针对现有技术上存在的不足,本专利技术目的是在于提供一种基于多媒体数据要素OFD文档的预索引生成方法,降低OFD全文检索实施难度,提升其实施质量和效果,实现OFD版式文档的全要素信息检索,为业务系统提供统一、全面的数据索引信息供给,易于推广使用。
[0006]为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种基于多媒体数据要素OFD文档的预索引生成方法,其步骤为:
[0007](1)定义索引数据包,核心属性结构有字典、文档内容定义、内容归属信息、容器信息;
[0008](2)解析OFD文件提取元数据信息,生成步骤(1)所描述的数据包片段;
[0009](3)解析OFD文件提取所有页面中的文字信息,生成步骤(1)所描述的数据包片段;
[0010](4)解析OFD文件基于OCR技术通过识别图片进行预处理,切割图片中文字并识别,提取所有页面图片中的文字信息进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;
[0011](5)解析OFD文件基于ASR技术提取所有页面音频,先对音频预处理,包括降噪、去回声等操作,运用声学模型对语音信号进行特征提取,接着使用语言模型库对这些特征进行匹配使用,最终提取文字信息,生成步骤(1)所描述的数据包片段;
[0012](6)解析OFD文件基于OpenCV技术提取所有页面中视频,通过调用OpenCV的库函数,识别视频中每一帧画像,通过步骤(4)实现文字提取,生成步骤(1)所描述的数据包片段;
[0013](7)解析OFD文件基于FFMpeg技术提取所有页面视频中的音频,解析出视频流,然后使用相应的API将其解码成原始视频帧序列;再调用FFmpeg的分离音频API,将视频中的音频流解析出来,并输出为音频文件,通过步骤(5)实现文字提取,生成步骤(1)所描述的数据包片段;
[0014](8)解析OFD文件提取所有注释中的文字信息,生成步骤(1)所描述的数据包片段;
[0015](9)解析OFD文件基于OCR技术提取所有注释图片,通过识别注释中图片进行预处理,切割图片中文字并识别,提取所有注释图片中的文字信息并进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;
[0016](10)解析OFD文件基于ASR技术提取所有注释音频,先对注释中音频预处理,包括降噪、去回声等操作,运用声学模型对语音信号进行特征提取,接着使用语言模型库对这些特征进行匹配使用,最终提取文字信息,生成步骤(1)所描述的数据包片段;
[0017](11)解析OFD文件基于OpenCV技术提取所有注释视频中的画面图像,通过调用opencv的库函数,识别视频中每一帧画像,通过步骤(9)实现文字提取,生成步骤(1)所描述的数据包片段;
[0018](12)解析OFD文件基于FFMpeg技术提取所有注释视频中的音频,解析出视频流,然后使用相应的API将其解码成原始视频帧序列;再调用FFmpeg的分离音频API,将注释视频中的音频流解析出来,并输出为音频文件,通过步骤(10)实现文字提取,生成步骤(1)所描述的数据包片段;
[0019](13)解析OFD文件提取所有附件中的文字信息,生成步骤(1)所描述的数据包片段;
[0020](14)解析OFD文件基于OCR技术提取所有附件图片,通过识别附件中图片进行预处理,切割图片中文字并识别,提取所有附件图片中的文字信息并进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;
[0021](15)解析OFD文件基于ASR技术提取所有附件音频,先对附件中音频预处理,包括降噪、去回声等操作,运用声学模型对语音信号进行特征提取,接着使用语言模型库对这些特征进行匹配使用,最终提取文字信息生成步骤(1)所描述的数据包片段;
[0022](16)解析OFD文件基于OpenCV技术,通过调用opencv的库函数,提取所有附件视频中的画面图像,识别视频中每一帧画像,通过步骤(14)实现文字提取,生成步骤(1)所描述的数据包片段;
[0023](17)解析OFD文件基于FFMpeg技术提取所有附件视频中的音频,解析出视频流,然后使用相应的API将其解码成原始视频帧序列,再调用FFmpeg的分离音频API,将附件视频中的音频流解析出来,并输出为音频文件,通过步骤(15)实现文字提取,生成步骤(1)所描述的数据包片段;
[0024](18)解析OFD文件附件中的OFD文件实施步骤(2)至步骤(18)的流程,当OFD附件中存在OFD文件时,需要逐层解析OFD文件直至每层不再包含OFD文件为止,以完成完整的解析过程,生成步骤(1)所描述的数据包片段;
[0025](19)对步骤(2)至步骤(18)所提取的文字进行概率语言模型分词,整理成为不重复的字、单词、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多媒体数据要素OFD文档的预索引生成方法,其特征在于,其步骤为:(1)定义索引数据包,核心属性结构有字典、文档内容定义、内容归属信息、容器信息;(2)解析OFD文件提取元数据信息,生成步骤(1)所描述的数据包片段;(3)解析OFD文件提取所有页面中的文字信息,生成步骤(1)所描述的数据包片段;(4)解析OFD文件基于OCR技术通过识别图片进行预处理,切割图片中文字并识别,提取所有页面图片中的文字信息进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;(5)解析OFD文件基于ASR技术提取所有页面音频,提取文字信息,生成步骤(1)所描述的数据包片段;(6)解析OFD文件基于OpenCV技术提取所有页面中视频,通过调用OpenCV的库函数,识别视频中每一帧画像,通过步骤(4)实现文字提取,生成步骤(1)所描述的数据包片段;(7)解析OFD文件基于FFMpeg技术提取所有页面视频中的音频,解析出视频流,并输出为音频文件,通过步骤(5)实现文字提取,生成步骤(1)所描述的数据包片段;(8)解析OFD文件提取所有注释中的文字信息,生成步骤(1)所描述的数据包片段;(9)解析OFD文件基于OCR技术提取所有注释图片,通过识别注释中图片进行预处理,切割图片中文字并识别,提取所有注释图片中的文字信息并进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;(10)解析OFD文件基于ASR技术提取所有注释音频,提取文字信息,生成步骤(1)所描述的数据包片段;(11)解析OFD文件基于OpenCV技术提取所有注释视频中的画面图像,通过调用opencv的库函数,识别视频中每一帧画像,通过步骤(9)实现文字提取,生成步骤(1)所描述的数据包片段;(12)解析OFD文件基于FFMpeg技术提取所有注释视频中的音频,解析出视频流,并输出为音频文件,通过步骤(10)实现文字提取,生成步骤(1)所描述的数据包片段;(13)解析OFD文件提取所有附件中的文字信息,生成步骤(1)所描述的数据包片段;(14)解析OFD文件基于OCR技术提取所有附件图片,通过识别附件中图片进行预处理,切割图片中文字并识别,提取所有附件图片中的文字信息并进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;(15)解析OFD文件基于ASR技术提取所有附件音频,提取文字信息,生成步骤(1)所描述的数据包片段;(16)解析OFD文件基于OpenCV技术,通过调用opencv的库函数,提取所有附件视频中的画面图像,识别视频中每一帧画像,通过步骤(14)实现文字提取,生成步骤(1)所描述的数据包片段;(17)解析OFD文件基于FFMpeg技术提取所有附件视频中的音频,解析出视频流,并输出为音频文件,通过步骤(15)实现文字提取,生成步骤(1)所描述的数据包片段;(18)解析OFD文件附件中的OFD文件实施步骤(2)至步骤(18)的流程,生成步骤(1)所描述的数据包片段;(19)对步骤(2)至步骤(18)所提取的文字进行概率语言模型分词,整理成为不重复的字、单词、成语、短语形成步骤(1)所定义的数据包中的字典数据,并对步骤(2)至步骤(18)
生成的文字片段重新整理为字典索引,最终输出一种基于多媒体数据要素OFD文档的预索引生成方法所定义的预索引数据包文件,即OFD文档预索引。2.根据权利要求1所述的一种基于多媒体数据要素OFD文档的预索引生成方法,其特征在于,所述的步...

【专利技术属性】
技术研发人员:陈亚军徐志东杨吉云王雷张程
申请(专利权)人:中国电子技术标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1