数据接入方法、装置、设备以及存储介质制造方法及图纸

技术编号:32740697 阅读:17 留言:0更新日期:2022-03-20 08:47
本公开提供了一种数据接入方法、装置、设备以及存储介质,涉及自然语言处理、知识图谱等人工智能技术领域。该方法包括:获取包括至少一种数据类型的待接入数据;基于每种数据类型对应的数据协议规范对待接入数据进行校验,响应于待接入数据通过检验,对待接入数据进行预处理,得到预处理数据;对预处理数据进行采集,得到采集数据;对采集数据进行存储,以完成数据接入过程。本公开提供的数据接入方法可以在接入侧对待接入数据进行预处理、采集以及存储,从而提高了数据接入的效率与性能。从而提高了数据接入的效率与性能。从而提高了数据接入的效率与性能。

【技术实现步骤摘要】
数据接入方法、装置、设备以及存储介质


[0001]本公开涉及自然语言处理、知识图谱等人工智能
,尤其涉及数据接入方法、装置、设备以及存储介质。

技术介绍

[0002]随着大数据与工业互联网时代的来临,大量的数据也带来了大量的挑战,不同种类、不同格式、不同来源的数据都需要通过各项终端接入到系统里。针对面向多业务、多模态的数据接入场景,需要解决企业内部的各系统数据对接,将散落在不同系统内的多模异构数据统一接入到知识中台,以用于后续的知识生产和应用。同时因为企业内部通常会积累大量数据,有时甚至达到亿级别存量数据,因此满足高性能的接入能力也是一个必要条件。

技术实现思路

[0003]本公开提供了一种数据接入方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种数据接入方法,包括:获取包括至少一种数据类型的待接入数据;基于每种数据类型对应的数据协议规范对待接入数据进行校验,响应于待接入数据通过检验,对待接入数据进行预处理,得到预处理数据;对预处理数据进行采集,得到采集数据;对采集数据进行存储,以完成数据接入过程。
[0005]根据本公开的第二方面,提供了一种数据接入装置,包括:获取模块,被配置成获取包括至少一种数据类型的待接入数据;预处理模块,被配置成基于每种数据类型对应的数据协议规范对待接入数据进行校验,响应于待接入数据通过检验,对待接入数据进行预处理,得到预处理数据;采集模块,被配置成对预处理数据进行采集,得到采集数据;存储模块,被配置成对采集数据进行存储,以完成数据接入过程。
[0006]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0007]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0008]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是本公开可以应用于其中的示例性系统架构图;
[0012]图2是根据本公开的数据接入方法的一个实施例的流程图;
[0013]图3是根据本公开的数据接入方法的另一个实施例的流程图;
[0014]图4是根据本公开的数据接入方法的一个应用场景示意图;
[0015]图5是根据本公开的数据接入装置的一个实施例的结构示意图;
[0016]图6是用来实现本公开实施例的数据接入方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0019]图1示出了可以应用本公开的数据接入方法或数据接入装置的实施例的示例性系统架构100。
[0020]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0021]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送信息等。终端设备101、102、103上可以安装有各种客户端应用。
[0022]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
[0023]服务器105可以提供各种服务。例如,服务器105可以对从终端设备101、102、103获取的待接入数据进行分析和处理,并生成处理结果(例如接入待接入数据)。
[0024]需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0025]需要说明的是,本公开实施例所提供的数据接入方法一般由服务器105执行,相应地,数据接入装置一般设置于服务器105中。
[0026]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0027]继续参考图2,其示出了根据本公开的数据接入方法的一个实施例的流程200。该数据接入方法包括以下步骤:
[0028]步骤201,获取包括至少一种数据类型的待接入数据。
[0029]在本实施例中,数据接入方法的执行主体(例如图1所示的服务器105)可以获取包
括至少一种数据类型的待接入数据,其中,数据类型包括但不限于:结构化数据、视频数据、网页数据、文档数据。上述执行主体可以从接入侧获取待接入数据,待接入数据中可以包括一种或多种数据类型的数据,数据类型可以包括但不限于结构化数据、视频数据、网页数据、文档数据,其中,结构化数据是指从数据库接入的数据,视频数据可以包括本地视频以及在线视频,文档数据可以包括但不限于office系列的PDF(Portable Document Format,可携带文档格式)、txt文本文档等。作为示例,待接入数据中可以包括结构化数据、视频数据以及网页数据。
[0030]步骤202,基于每种数据类型对应的数据协议规范对待接入数据进行校验,响应于待接入数据通过检验,对待接入数据进行预处理,得到预处理数据。
[0031]在本实施例中,上述执行主体预先为每种数据类型的数据定制对应的数据协议规范,在获取待接入数据后,上述执行主体可以基于预先定制的、每种数据类型对应的数据协议规范对待接入数据进行校本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据接入方法,包括:获取包括至少一种数据类型的待接入数据;基于每种数据类型对应的数据协议规范对所述待接入数据进行校验,响应于所述待接入数据通过检验,对所述待接入数据进行预处理,得到预处理数据;对所述预处理数据进行采集,得到采集数据;对所述采集数据进行存储,以完成数据接入过程。2.根据权利要求1所述的方法,其中,所述待接入数据包括视频数据;以及所述对所述待接入数据进行预处理,包括:对所述视频数据进行分割,得到至少一个子视频文件;分别获取所述至少一个子视频文件中的每个子视频文件的流媒体文件和元信息,将所述流媒体文件和元信息转换为JSON JavaScript对象简谱格式的数据。3.根据权利要求1所述的方法,其中,所述待接入数据包括文档数据;以及所述对所述待接入数据进行预处理,还包括:将所述文档数据转换为网页数据,得到转换后的网页数据;将所述转换后的网页数据以及所述文档数据的元信息转换为JSON格式的数据。4.根据权利要求2

3中任一项所述的方法,其中,所述对所述预处理数据进行采集,包括:基于预先定制的接口组件对所述JSON格式的数据进行采集,其中,所述接口组件包括以下至少一种:接口推送组件、接口拉取组件、文件传输协议组件。5.根据权利要求3所述的方法,其中,所述对所述预处理数据进行采集,还包括:基于文件上传组件对流媒体文件以及所述转换后的网页数据进行采集。6.根据权利要求1

5中任一项所述的方法,其中,所述对所述采集数据进行存储,包括:基于消息队列、分布式存储以及本地存储中的至少一种存储方式,对所述采集数据进行存储。7.根据权利要求1

6中任一项所述的方法,还包括:基于预先定制的数据输出协议对存储的数据进行输出。8.一种数据接入装置,包括:获取模块,被配置成获取包括至少一种数据类型的待接入数据;预处理模块,被配置成基于每种数据类型对应的数据协议规范对所述待接入数据进行校验,响应于所述待接入数据通过检验,对所述待接入数据进行预处理,得到预处理数据;采集模块,被配置成对所述预处理数据进行采集,得到采集数据;存储模块,被配置成对所述采集数据进行存储,以完成数据接入过程。9.根据权...

【专利技术属性】
技术研发人员:崔雪霏郝学峰王维煜孙莺萁宋勋超王志华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1