一种基于信息熵测度的数据价值评估方法及系统技术方案

技术编号：43343781 阅读：13 留言：0更新日期：2024-11-15 20:40

本发明专利技术提供了一种基于信息熵测度的数据价值评估方法即系统，方法包括获取待评估的数据集，对各数据集建立概率模型，根据所确定的模型复杂度和数据量的大小，选择参数估计方法，使用估计得到的模型参数估计这些数据点发生的概率；对于各数据集，使用信息量函数计算数据集的信息熵；通过计算得到的信息熵，对整个数据集的平均信息量或不确定性进行价值评估，得到各数据集的价值。本发明专利技术的方法不直接依赖于数据的具体内容，而是依赖于数据的整体分布和概率特性，因而能有效地解决数据复杂性高的问题，同时识别和过滤掉冗余信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于是数据处理，尤其是涉及一种基于信息熵测度的数据价值评估方法及系统。

技术介绍

1、随着信息技术的飞速发展，数据在各行各业的价值日益凸显，成为了重要的资源。然而，如何准确评估数据的价值，特别是在数据被转换或处理后的价值，依旧是该领域内的挑战。目前衡量数据价值的主流方向主要分为两种：

2、一是将数据转化为传统生产要素。在数字经济的背景下，数据已经成为与传统生产要素并驾齐驱的关键资源，其价值和流通对经济增长与创新具有深远影响。将数据视为生产要素突显了其在创造新的经济价值、驱动业务模式创新以及促进社会进步中的核心作用。数据通过参与生产过程，与资本、劳动等要素共同创造价值。但在实际操作中，如何精确评估数据的价值仍然是一个挑战。现有的评估方法往往依赖于表面的数据分析，忽略了数据背后的潜在价值和复杂性。其次，数据的流通和价值实现受到技术、政策、法律等多重因素的限制，现有的框架和技术支持不足以应对这些挑战，导致数据价值的有效释放受阻。此外，数据安全和隐私保护的问题也是现有方法难以充分解决的重要方面，这些问题的存在严重影响了数据要素化后的价值评估。

3、二是将数据视作一种独立的资产，强调其作为资源的价值和作为资产的潜能。在数字化时代背景下，数据的量级和价值均有了质的飞跃，数据成为了可以量化、交易、流通的资产。数据资产的管理涵盖了数据资源化和数据资产化两个阶段。数据资源化是评估数据价值的基础，其侧重于提升数据的质量、确保数据安全，包括数据治理、数据模型管理、数据标准管理等多个方面。而数据资产化则是将数据资源转化

4、上述两种主流的数据价值评估方法在实践中遇到了几个主要的问题。首先，数据的复杂性极高，由于数据类型多样、来源广泛，并含有大量的冗余信息，这大大增加了评估工作的复杂度。其次，缺乏一个通用的评估标准。不同领域对数据价值的理解和评估标准各不相同，目前还没有一个普遍被接受的评价体系。再者，数据价值的动态性与时效性也是一个挑战，数据的价值会随着时间、使用环境和目的的改变而变化，这要求评估方法能够动态地适应这些变化。最后，现有的评估方法往往单一，多依赖于特定场景或数据类型，缺乏通用性和灵活性。因此，现阶段亟需找到一种可以解决上述部分问题的数据价值评估方法。

技术实现思路

1、有鉴于此，本专利技术旨在克服现有技术中上述问题的不足之处，提出一种基于信息熵测度的数据价值评估方法及系统。

2、为达到上述目的，本专利技术的技术方案是这样实现的：

3、本专利技术第一方面提管理一种基于信息熵测度的数据价值评估方法，包括如下步骤：

4、步骤1：获取待评估的数据集，对各数据集建立概率模型，根据所确定的模型复杂度和数据量的大小，选择参数估计方法，使用估计得到的模型参数估计这些数据点发生的概率；

5、步骤2：对于各数据集，使用信息量函数计算数据集的信息熵；

6、步骤3：通过计算得到的信息熵，对整个数据集的平均信息量或不确定性进行价值评估，得到各数据集的价值。

7、进一步的，所述步骤1中具体包括：

8、步骤1.1：对获取的各数据集进行预处理，确保数据质量，进而对各数据集类型进行识别，判断数据集是连续数据集或离散数据集；

9、步骤1.2：分析预处理后的各数据集的数据类型和分布特征，根据以下特征选取概率模型：

10、对于离散数据集的处理方式，包括但不限于：

11、二项分布模型，用于每次观测只有两种可能结果的情况，其中每种结果的概率固定不变，具备固定总次数和已知单个结果概率的特性，其概率计算公式为

12、

13、p(x＝k)表示在n组数据中出现数据为k的概率，p是该事件的单次观测概率；

14、泊松分布模型，用于特定时间间隔或空间范围内，事件发生次数独立且具有固定平均生成率的条件，其概率计算公式为

15、

16、其中λp是数据的平均发生率，表明在单位时间或单位空间内事件平均发生的频率；

17、马尔可夫模型，用于预测一系列数据中每个数据点的概率，且这些数据点的下一个状态的概率仅依赖于其当前状态，表现出无记忆性或马尔可夫性质，xt是在时间t的状态，状态空间s＝{s1，s2，s3，...，sm}，m是状态的总数，其状态转移概率为

18、pij＝p(xt+1＝sj|xt＝si)(1≤i,j≤m) (3)；

19、对于连续数据集的处理方式，包括但不限于：

20、正态分布(高斯分布)模型，用于数据围绕中心值对称分布的特性，其概率函数为

21、

22、其中μ为均值，σ为标准差；

23、对数正态分布模型，用于所有数据点均为正数且分布明显右偏的情况，当随机变量的自然对数遵循正态分布，其概率函数为

24、

25、其中μ为均值，σ为标准差；

26、指数分布模型，用于在连续时间或空间上，事件随机独立发生，并且一个事件在未来某个时间段内产生的概率与它到目前为止已经等待或发生过的时间无关，其概率函数为

27、

28、其中λe是数据的平均发生率，表明事件之间的时间发生的频率，即单位时间内事件发生的平均次数；

29、伽马分布模型，适用于分析和描述在固定时间段或空间区间内发生的多个独立且相似事件的总等待时间或累积量的条件，其概率函数为

30、

31、γ(α)＝(α-1)！ (8)

32、其中α是分布的形状参数,β是影响分布宽度或扩散程度的尺度参数，γ(α)是伽马函数；

33、步骤1.3：根据如下特征选择参数估计方法：

34、对于离散数据的二项分布模型和泊松分布模型，采用最大似然估计法(mle)进行参数估计，二项分布模型的参数估计

35、

36、其中x是观察到的数据出现的次数，n是数据总数；

37、泊松分布模型的参数估计

38、

39、其中xi表示每个单位内数据生成的次数，n是数据的总数；

40、对于连续数据的正态分布模型，应用矩估计方法，基于样本矩来估计分布参数，其中均值μ的估计为

41、

42、方差σ2的估计为

43、

44、其中xi是样本数据点，n是样本数据点本文档来自技高网...

【技术保护点】

1.一种基于信息熵测度的数据价值评估方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤1中具体包括：

3.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤1.1中，预处理包括处理缺失值、异常值和噪声数据。

4.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤2包括：

5.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤3包括：

6.一种基于信息熵测度的数据价值评估系统，其特征在于：包括

7.一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，其特征在于：所述处理器用于执行上述权利要求1-5任一所述的基于信息熵测度的数据价值评估方法。

8.一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于信息熵测度的数据价值评估方法。

【技术特征摘要】

1.一种基于信息熵测度的数据价值评估方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤1中具体包括：

3.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤1.1中，预处理包括处理缺失值、异常值和噪声数据。

4.根据权利要求1所述的一种基于信息熵测度的数据价值评估方法，其特征在于：所述步骤2包括：

5.根据权利要求1所述的一种基于信息熵测度...

【专利技术属性】
技术研发人员：张涛，孙涵筱，赵鑫，耿彦章，杨明，刘炜杰，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人