【技术实现步骤摘要】
一种基于多媒体数据要素OFD文档的预索引生成方法
[0001]一种基于多媒体数据要素OFD文档的预索引生成方法涉及的是软件
,具体涉及一种基于多媒体数据要素OFD文档的预索引生成方法。
技术介绍
[0002]版式文档是最为通用的一种文档形态,其在不同的计算机软硬件条件下稳定性较高,常用于文件的存档和信息发布。版式文档格式国家标准OFD是国家2016年10月发布,于2017年5月正式实施的自主知识产权版式文档格式标准。自主标准、自主知识产权的原生需求日益突出,随着OFD版式文档规范逐渐深入应用在各行各业,相当部分的公文、证照、凭证、报告等高价值文档以OFD格式存储,其中OFD版式文档内容的全要素检索功能已经成为文档利用场景的迫切需求,OFD版式文档的全要素是指构成文档信息所需的文字、图片、图形、音频、视频以及作为附件存入OFD版式文档中的其他文件。
[0003]常规的对OFD文件进行全文检索的方法是获取文档的文字数据,提取版式文档中的文字内容,对文字建立数据索引,使用业界常见的搜索引擎进行内容的全文检索,进而提供检索服务。这种方法索引的创建对内容提取有强依赖性,需要对OFD文档进行解析,根据OFD规范所定义的文档、页面、元素等概念汇总整理形成文本流而实现,具有一定的局限性:一方面,文字内容不能完整反映版式文档中的所有内容,另一方面,如此要求也限定了文档格式的多样化应用。文档中的图形、图像、音视频等,对文档的信息表达也十分关键。对文档中包含的图像、音视频和附件等其他要素的检索,存在文档质量参差不齐、技术实现 ...
【技术保护点】
【技术特征摘要】
1.一种基于多媒体数据要素OFD文档的预索引生成方法,其特征在于,其步骤为:(1)定义索引数据包,核心属性结构有字典、文档内容定义、内容归属信息、容器信息;(2)解析OFD文件提取元数据信息,生成步骤(1)所描述的数据包片段;(3)解析OFD文件提取所有页面中的文字信息,生成步骤(1)所描述的数据包片段;(4)解析OFD文件基于OCR技术通过识别图片进行预处理,切割图片中文字并识别,提取所有页面图片中的文字信息进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;(5)解析OFD文件基于ASR技术提取所有页面音频,提取文字信息,生成步骤(1)所描述的数据包片段;(6)解析OFD文件基于OpenCV技术提取所有页面中视频,通过调用OpenCV的库函数,识别视频中每一帧画像,通过步骤(4)实现文字提取,生成步骤(1)所描述的数据包片段;(7)解析OFD文件基于FFMpeg技术提取所有页面视频中的音频,解析出视频流,并输出为音频文件,通过步骤(5)实现文字提取,生成步骤(1)所描述的数据包片段;(8)解析OFD文件提取所有注释中的文字信息,生成步骤(1)所描述的数据包片段;(9)解析OFD文件基于OCR技术提取所有注释图片,通过识别注释中图片进行预处理,切割图片中文字并识别,提取所有注释图片中的文字信息并进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;(10)解析OFD文件基于ASR技术提取所有注释音频,提取文字信息,生成步骤(1)所描述的数据包片段;(11)解析OFD文件基于OpenCV技术提取所有注释视频中的画面图像,通过调用opencv的库函数,识别视频中每一帧画像,通过步骤(9)实现文字提取,生成步骤(1)所描述的数据包片段;(12)解析OFD文件基于FFMpeg技术提取所有注释视频中的音频,解析出视频流,并输出为音频文件,通过步骤(10)实现文字提取,生成步骤(1)所描述的数据包片段;(13)解析OFD文件提取所有附件中的文字信息,生成步骤(1)所描述的数据包片段;(14)解析OFD文件基于OCR技术提取所有附件图片,通过识别附件中图片进行预处理,切割图片中文字并识别,提取所有附件图片中的文字信息并进行版面恢复,通过上下文关系校验生成步骤(1)所描述的数据包片段;(15)解析OFD文件基于ASR技术提取所有附件音频,提取文字信息,生成步骤(1)所描述的数据包片段;(16)解析OFD文件基于OpenCV技术,通过调用opencv的库函数,提取所有附件视频中的画面图像,识别视频中每一帧画像,通过步骤(14)实现文字提取,生成步骤(1)所描述的数据包片段;(17)解析OFD文件基于FFMpeg技术提取所有附件视频中的音频,解析出视频流,并输出为音频文件,通过步骤(15)实现文字提取,生成步骤(1)所描述的数据包片段;(18)解析OFD文件附件中的OFD文件实施步骤(2)至步骤(18)的流程,生成步骤(1)所描述的数据包片段;(19)对步骤(2)至步骤(18)所提取的文字进行概率语言模型分词,整理成为不重复的字、单词、成语、短语形成步骤(1)所定义的数据包中的字典数据,并对步骤(2)至步骤(18)
生成的文字片段重新整理为字典索引,最终输出一种基于多媒体数据要素OFD文档的预索引生成方法所定义的预索引数据包文件,即OFD文档预索引。2.根据权利要求1所述的一种基于多媒体数据要素OFD文档的预索引生成方法,其特征在于,所述的步...
【专利技术属性】
技术研发人员:陈亚军,徐志东,杨吉云,王雷,张程,
申请(专利权)人:中国电子技术标准化研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。