一种数据筛选方法、装置、设备及其存储介质制造方法及图纸

技术编号：44358272 阅读：0 留言：0更新日期：2025-02-25 09:41

本申请实施例属于大数据技术领域，应用于多筛选条件且多源数据端的多对多数据检索场景中，涉及一种数据筛选方法、装置、设备及其存储介质，通过获取多源数据端中分别参与目标数据筛选的数值化数据；对数值化数据进行数据元组集合化整理，获得以数据元组为元素的集合化整理结果；识别筛选条件；通过筛选条件筛选出每一组数据筛选条件分别所对应的最终数据元组，完成本次数据筛选。通过在数据筛选前，对搜索域中数据进行数据元组集合化处理，以及对筛选条件也进行前置排序，对候选数据元组引入单调栈存储，在实际进行数据筛选时，提高了数据筛选效率，节省了时间消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据，应用于多筛选条件且多源数据端的多对多数据检索场景中，尤其涉及一种数据筛选方法、装置、设备及其存储介质。

技术介绍

1、用户在进行数据查询的时候，在原始数据量大的情况下直接进行数据搜索，根据搜索装置的配置、搜索方式、搜索内容的不同，所需要花费的时间也不同，用户在查询时，若直接在数据源中进行搜索，在原始数据量大的情况下，直接判断目标结果会出现搜索较慢或因数据太大响应不过来出现假死停顿的现象。

2、而目前针对上述现象已经存在一定的改善，但是，对于大数据应用场景下的多对多筛选搜索，还缺乏很好的改善方法，例如：多搜索引擎对多个数据存储端进行综合搜索的大数据处理场景下，又例如：采用多个搜索条件对多个数据端分别进行搜索的场景下，导致了现有技术在多对多筛选场景下，耗费时间较长，筛选效率低下的问题。

技术实现思路

1、本申请实施例的目的在于提出一种数据筛选方法、装置、设备及其存储介质，以解决现有技术在多对多筛选场景下，耗费时间较长，筛选效率低下的问题。

2、为了解决上述技术问题，本申请实施例提供数据筛选方法，采用了如下所述的技术方案：

3、一种数据筛选方法，包括下述步骤：

4、获取多源数据端中分别参与目标数据筛选的数值化数据；

5、根据多源数据端的不同，对所述数值化数据进行数据元组集合化整理，获得以数据元组为元素的集合化整理结果；

6、识别所述多源数据端所对应的多组数据筛选条件，以及所述多源数据端所对应的综合性

7、通过所述多组数据筛选条件和所述综合性筛选条件从所述集合化整理结果中筛选出每一组数据筛选条件分别所对应的所有候选数据元组；

8、根据预设的最优筛选策略从每一组数据筛选条件分别所对应的所有候选数据元组中筛选出每一组数据筛选条件分别所对应的最终数据元组，完成本次数据筛选。

9、进一步的，所述根据多源数据端的不同，对所述数值化数据进行数据元组集合化整理，获得以数据元组为元素的集合化整理结果的步骤，具体包括：

10、根据多源数据端的不同，对所述数值化数据进行数组化整理，获得每个数据端分别对应的数值化数据数组；

11、根据数组下标，从每个数据端分别对应的数值化数据数组中，获取相同数组下标的数值化数据，生成集合长度为n，数据元组长度为m的整理结果，其中，m表示多源数据端的数据端数量，n表示所述m个数据端中参与目标数据筛选的数值化数据的最大数量，n和m为正整数。

12、进一步的，所述根据数组下标，从每个数据端分别对应的数值化数据数组中，获取相同数组下标的数值化数据，生成集合长度为n，数据元组长度为m的整理结果的步骤，具体包括：

13、根据预设的数组长度计算方式，计算出每个数据端分别对应的数值化数据数组的长度；

14、通过两两对比，从所述多源数据端所对应的所有数值化数据数组中筛选出长度最长的数值化数据数组；

15、将所述长度最长的数值化数据数组的长度，设置为所述集合长度n；

16、依次从所述多源数据端所对应的所有数值化数据数组中，获得相同数组下标的数值化数据，将相同数组下标的数值化数据加入到同一个数据元组中，生成长度为m的n个数据元组；

17、对所述生成长度为m的n个数据元组，进行集合化处理，得到集合长度为n，数据元组长度为m的整理结果，其中，n表示所述长度最长的数值化数据数组的长度，m表示所述多源数据端所对应的所有数值化数据数组的数量。

18、进一步的，所述依次从所述多源数据端所对应的所有数值化数据数组中，获得相同数组下标的数值化数据，将相同数组下标的数值化数据加入到同一个数据元组中，生成长度为m的n个数据元组的步骤，具体包括：

19、步骤501，采用预设的数组元素提取方法，提取当前数值化数据数组在当前数组下标所相应的数值化数据，获得提取结果；

20、步骤502，若所述提取结果非为空值，则获得所述数值化数据，并将所述数值化数据加入到所述当前数组下标所对应的数据元组中；

21、步骤503，若所述提取结果为空值，则在所述当前数组下标所对应数据元组的预留位置处添加相应的空值；

22、步骤504，依次将0至n作为所述预设的数组元素提取方法的提取控制参数，重复执行步骤501至步骤503，生成长度为m的n个数据元组。

23、进一步的，在执行所述识别所述多源数据端所对应的多组数据筛选条件的步骤之后，所述方法还包括：

24、从所述多源数据端中任选一个数据端作为目标数据端；

25、从每一组数据筛选条件中分别识别出所述目标数据端对应的数值化筛选数据；

26、根据所述目标数据端所对应的所有数值化筛选数据的大小关系，对所述多组数据筛选条件进行排序处理，获得排序处理后的多组数据筛选条件。

27、进一步的，所述根据所述目标数据端所对应的所有数值化筛选数据的大小关系，对所述多组数据筛选条件进行排序处理，获得排序处理后的多组数据筛选条件的步骤，具体包括：

28、对所述目标数据端所对应的所有数值化筛选数据进行降序处理，获得降序序列；

29、识别所述降序序列中所有数值化筛选数据分别所对应的每一组数据筛选条件，获得识别结果；

30、将所述多组数据筛选条件按照所述识别结果进行排序处理，获得所述排序处理后的多组数据筛选条件。

31、进一步的，在执行所述通过所述多组数据筛选条件和所述综合性筛选条件从所述集合化整理结果中筛选出每一组数据筛选条件分别所对应的所有候选数据元组的步骤之后，所述方法还包括：

32、步骤801，依次逐个获取每一组数据筛选条件分别所对应的所有候选数据元组；

33、步骤802，根据所述综合性筛选条件，从当前获取的候选数据元组和前一次获取的候选数据元组中筛选出较优的候选数据元组，获得筛选结果；

34、步骤803，根据所述筛选结果，将每一组数据筛选条件分别所对应的较优的候选数据元组缓存到目标数据缓存栈中，其中，每一组数据筛选条件分别对应一个相应的数据缓存栈；

35、步骤804，重复执行步骤801至步骤803，将每一组数据筛选条件分别所对应的最优的候选数据元组缓存到目标数据缓存栈中；

36、所述根据预设的最优筛选策略从每一组数据筛选条件分别所对应的所有候选数据元组中筛选出每一组数据筛选条件分别所对应的最终数据元组，完成本次数据筛选的步骤，具体包括：

37、从目标数据缓存栈中获取所述多组数据筛选条件分别所对应的最优的候选数据元组；

38、将所述多组数据筛选条件分别所对应的最优的候选数据元组作为相应的最终数据元组。

39、为了解决上述技术问题，本申请实施例还提供数据筛选装置，采用了如下所述的技本文档来自技高网...

【技术保护点】

1.一种数据筛选方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的数据筛选方法，其特征在于，所述根据多源数据端的不同，对所述数值化数据进行数据元组集合化整理，获得以数据元组为元素的集合化整理结果的步骤，具体包括：

3.根据权利要求2所述的数据筛选方法，其特征在于，所述根据数组下标，从每个数据端分别对应的数值化数据数组中，获取相同数组下标的数值化数据，生成集合长度为N，数据元组长度为M的整理结果的步骤，具体包括：

4.根据权利要求3所述的数据筛选方法，其特征在于，所述依次从所述多源数据端所对应的所有数值化数据数组中，获得相同数组下标的数值化数据，将相同数组下标的数值化数据加入到同一个数据元组中，生成长度为M的N个数据元组的步骤，具体包括：

5.根据权利要求1所述的数据筛选方法，其特征在于，在执行所述识别所述多源数据端所对应的多组数据筛选条件的步骤之后，所述方法还包括：

6.根据权利要求5所述的数据筛选方法，其特征在于，所述根据所述目标数据端所对应的所有数值化筛选数据的大小关系，对所述多组数据筛选条件进行排序处理，获

7.根据权利要求1或6所述的数据筛选方法，其特征在于，在执行所述通过所述多组数据筛选条件和所述综合性筛选条件从所述集合化整理结果中筛选出每一组数据筛选条件分别所对应的所有候选数据元组的步骤之后，所述方法还包括：

8.一种数据筛选装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据筛选方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据筛选方法的步骤。

...

【技术特征摘要】

1.一种数据筛选方法，其特征在于，包括下述步骤：

3.根据权利要求2所述的数据筛选方法，其特征在于，所述根据数组下标，从每个数据端分别对应的数值化数据数组中，获取相同数组下标的数值化数据，生成集合长度为n，数据元组长度为m的整理结果的步骤，具体包括：

4.根据权利要求3所述的数据筛选方法，其特征在于，所述依次从所述多源数据端所对应的所有数值化数据数组中，获得相同数组下标的数值化数据，将相同数组下标的数值化数据加入到同一个数据元组中，生成长度为m的n个数据元组的步骤，具体包括：

5.根据权利要求1所述的数据筛选方法，其特征在于，在执行所述识别所述多源数据端所对应的多组数据筛选条件的步骤之后，所述方法还包括：

6...

【专利技术属性】
技术研发人员：易明，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人