多模态数据集成管理方法、装置及介质制造方法及图纸

技术编号:37678615 阅读:12 留言:0更新日期:2023-05-26 04:44
本发明专利技术提供一种多模态数据集成管理方法、装置及介质,该多模态数据集成管理方法包括:对接入的第一多模态数据执行临时存储;对第一多模态数据执行预处理,得到第二多模态数据;对第二多模态数据执行提取,得到包括有数据特征、数据来源及存储位置的元数据;采用对应的数据存储方式对元数据执行存储。使用可定制算法来实现文本、声音及视觉数据的统一集成,通过使用本体模型/元模型的方式统一提取文本、声音和视觉数据的元数据,并通过对象存储辅以结构化存储方式,来实现多模态的统一存储,借助元数据和对象存储技术,实现多模态数据的高可靠、高性能访问的统一管理,使得多模态数据分析效率和准确性大大提升。分析效率和准确性大大提升。分析效率和准确性大大提升。

【技术实现步骤摘要】
多模态数据集成管理方法、装置及介质


[0001]本专利技术涉及计算机
,尤其涉及一种多模态数据集成管理方法、装置及介质。

技术介绍

[0002]在信息技术飞速发展的今天,多模态数据正在成为大数据的主要形式,因此通过对于多模态数据的接入、存储和管理方法,赋予计算机处理和管理多模态数据的能力具有重要价值。
[0003]当前的数据存储管理都是针对单模态数据的,随着多模态技术的发展,需要处理包含声音的图像、包含文字和图片等多种模态数据的消息,在传统的单模态处理方式,无法实现多模态数据的统一管理,从而在处理多模态数据时候难以保证效率。

技术实现思路

[0004]本专利技术实施例的主要目的在于提出一种多模态数据集成管理方法、装置及介质,提高了多模态数据的提取、存储及管理效率。
[0005]本专利技术的一方面提供了一种多模态数据集成管理方法,包括:响应于多模态数据管理请求,对接入的第一多模态数据执行临时存储,所述第一多模态数据用于表征数据源,所述数据源包括文本数据、声音数据及视觉数据中的至少一种;对所述第一多模态数据执行预处理,得到第二多模态数据,所述预处理包括数据清洗及冗余数据清除中的至少一种;对所述第二多模态数据执行提取,得到包括有数据特征、数据来源及存储位置的元数据;根据所述元数据的类型,采用对应的数据存储方式对所述元数据执行存储。
[0006]根据所述的多模态数据集成管理方法,其中对接入的第一多模态数据执行临时存储,包括:
[0007]通过ETL过程将所述数据源中的所述文本数据、所述声音数据及所述视觉数据抽取到临时中间层,所述数据源为分布式数据源及异构数据源中的至少一种。
[0008]根据所述的多模态数据集成管理方法,其中对所述第一多模态数据执行预处理,得到第二多模态数据,包括:所述文本数据的所述预处理包括删除特殊符号、去除字符中多余的空格、删除连续出现的标点符号、删除不出现中文字符的数据行、删除长度较短的无用文本及对每一行文本进行切分中的至少一种,通过正则表达式及文本切分函数中的一种将经过所述预处理的所述文本数据逐行存储在文件中;所述声音数据的所述预处理采用k

means聚类方法检测噪声数据,以及,采用端点检测算法进行去掉噪声数据;所述视觉数据的所述预处理包括基于OPENCV的拉普拉斯算子检测并执行去除已损坏的图片、去除模糊图片及去除相似图片中的至少一种处理。
[0009]根据所述的多模态数据集成管理方法,其中文本数据的提取包括获取所述文本数据的关键词频及长度中的至少一种;所述关键词频使用词频

倒排文档频次算法进行停用词进行过滤,并进行文档关键词词频的统计;所述文本数据的长度是使用统计函数计算文
本长度得到。
[0010]根据所述的多模态数据集成管理方法,其中声音数据的提取包括声音的语类识别、音量识别、过零率识别及音高识别中的至少一种处理;所述语类识别包括对所述声音数据进行端点处理,使用MFCC进行声音的特征提取,再将这些特征作为参数传入到分类器中进行声音特征的识别、分类及输出,得到语种识别结果;所述音量识别包括确定所述声音数据的每一个音帧的分贝值;所述过零率识别包括确定所述声音数据的每一个音帧声音信号的采样值通过零点的次数;所述音高识别通过
[0011]pitch=69+12*log2(F/440)
[0012]进行确定,其中pitch为音高,F为基本频率。
[0013]根据所述的多模态数据集成管理方法,其中视觉数据的提取包括声音的存储量、分辨率、饱和度、对比度及亮度中的至少一种处理:所述存储量通过公式c=n*m*p/8计算确定,其中c为存储量,n代表水平像素,m代表垂直像素,p代表每个像素所需位数;所述分辨率、所述饱和度、所述对比度及所述亮度通过调用OPENCV接口进行识别得到。
[0014]根据所述的多模态数据集成管理方法,其中据所述元数据的类型,采用对应的数据存储方式对所述元数据执行存储包括:将所述元数据存储至关系型数据库MySql集群中,所述关系型数据库MySql集群包括多模态数据的存储信息以及所述元数据特征信息;以及,对所述关系型数据库MySql集群进行访问时采用分片及索引方式对第一模态数据进行查询。
[0015]8、根据权利要求1所述的多模态数据集成管理方法,其特征在于,所述方法还包括:
[0016]使用Hadoop分布式进行所述文本数据的存储和管理,当第一多模态数据进行文件的存储和计算时,通过基于双层哈希编码和HBase的文件存储进行优化;在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展;在每个存储桶中使用哈希函数存储每个文件索引信息在索引文件中的位置,当接收访问文本文件的请求时通过读取对应存储桶中的文件索引信息,确定文本文件;使用HBase存储文件索引信息,并设置标识列用于标识不同模态的数据,便于对不同模态数据的存储管理,并提高文件的读取速度;以及,建立基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储;
[0017]使用Minio对象存储方法,对所述声音数据和所述视觉数据进行存储,其中,所述声音数据和所述视觉数据包括对应所属桶、所属用户及所属租户,桶用于存储所述第二多模态数据;其中租户用于隔离存储资源,通过租户创建桶、存储对象;其中,用户是在租户下面创建的用于访问不同桶的账号。
[0018]本专利技术实施例的另一方面提供了一种多模态数据集成管理装置,包括:
[0019]第一模块,用于根据多模态数据管理请求,对接入的第一多模态数据执行临时存储,所述第一多模态数据用于表征数据源,所述数据源包括文本数据、声音数据及视觉数据中的至少一种;
[0020]第二模块,用于对所述第一多模态数据执行预处理,得到第二多模态数据,所述预处理包括数据清洗及冗余数据清除中的至少一种;
[0021]第三模块,用于对所述第二多模态数据执行提取,得到包括有数据特征、数据来源
及存储位置的元数据;
[0022]第四模块,用于根据所述元数据的类型,采用对应的数据存储方式对所述元数据执行存储。
[0023]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
[0024]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0025]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0026]图1是本专利技术实施例的多模态数据集成管理的流程示意图。
[0027]图2是本专利技术实施例的预处理流程示意图。
[0028]图3是本专利技术实施例的元数据提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据集成管理方法,其特征在于,包括:响应于多模态数据管理请求,对接入的第一多模态数据执行临时存储,所述第一多模态数据用于表征数据源,所述数据源包括文本数据、声音数据及视觉数据中的至少一种;对所述第一多模态数据执行预处理,得到第二多模态数据,所述预处理包括数据清洗及冗余数据清除中的至少一种;对所述第二多模态数据执行提取,得到包括有数据特征、数据来源及存储位置的元数据;根据所述元数据的类型,采用对应的数据存储方式对所述元数据执行存储。2.根据权利要求1所述的多模态数据集成管理方法,其特征在于,所述对接入的第一多模态数据执行临时存储,包括:通过ETL过程将所述数据源中的所述文本数据、所述声音数据及所述视觉数据抽取到临时中间层,所述数据源为分布式数据源及异构数据源中的至少一种。3.根据权利要求1所述的多模态数据集成管理方法,其特征在于,所述对所述第一多模态数据执行预处理,得到第二多模态数据,包括:所述文本数据的所述预处理包括删除特殊符号、去除字符中多余的空格、删除连续出现的标点符号、删除不出现中文字符的数据行、删除长度较短的无用文本及对每一行文本进行切分中的至少一种,通过正则表达式及文本切分函数中的一种将经过所述预处理的所述文本数据逐行存储在文件中;所述声音数据的所述预处理采用k

means聚类方法检测噪声数据,以及,采用端点检测算法进行去掉噪声数据;所述视觉数据的所述预处理包括基于OPENCV的拉普拉斯算子检测并执行去除已损坏的图片、去除模糊图片及去除相似图片中的至少一种处理。4.根据权利要求1所述的多模态数据集成管理方法,其特征在于,所述文本数据的提取包括获取所述文本数据的关键词频及长度中的至少一种;所述关键词频使用词频

倒排文档频次算法进行停用词进行过滤,并进行文档关键词词频的统计;所述文本数据的长度是使用统计函数计算文本长度得到。5.根据权利要求1所述的多模态数据集成管理方法,其特征在于,所述声音数据的提取包括声音的语类识别、音量识别、过零率识别及音高识别中的至少一种处理;所述语类识别包括对所述声音数据进行端点处理,使用MFCC进行声音的特征提取,再将这些特征作为参数传入到分类器中进行声音特征的识别、分类及输出,得到语种识别结果;所述音量识别包括确定所述声音数据的每一个音帧的分贝值;所述过零率识别包括确定所述声音数据的每一个音帧声音信号的采样值通过零点的次数;所述音高识别通过pitch=69+12*log2(F/440)进行确定,其中pitch为音高,F为基本频率。6.根据权利要求1所述的多模态数据集成管理方法,其特征在于,所述视觉数...

【专利技术属性】
技术研发人员:张建军王文重刘立峰王麟东刁海峰母健康
申请(专利权)人:珠海高凌信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1