一种矿用数据管理的字符串数据分组方法技术

技术编号：43767543 阅读：20 留言：0更新日期：2024-12-24 16:08

本申请涉及文本处理和数据分析技术领域，尤其涉及一种矿用数据管理的字符串数据分组方法，包括，步骤一、遍历所有字符串数据，对字符串数据进行分组成字符串组；步骤二、对每个分组方案进行分组效果评价；步骤三、对多个分组方案进行两两对比，进行分组效果优化迭代，具体为：随机选择两个分组方案，并调换两个分组方案中的字符串组，形成新的分组方案，若新的分组方案效果优于原分组方案，则替代原方案。本发明专利技术通过根据分组效果进行迭代优化的方式，将组内字符串的共同子串长度和准确度进行综合考虑，可以让输出的分组结果提高组内共同子串的长度，同时满足分类准确的要求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文本处理和数据分析，尤其涉及一种矿用数据管理的字符串数据分组方法。

技术介绍

1、在煤矿采掘作业的数据管理中，存在大量的后台数据，而在信息化建设的过程中，一些可以通过传感器传输的信息可以自动上传生成报表，为项目统一管理带来了便利。

2、现有的字符串数据分组技术，主要有关键字分组和文本相似度分组两种方式。分词的方式可以将字符串分割成有意义的单纯或短语，但是无法形成复杂的共同点，在含义表达上存在一定缺陷；文本相似度计算旨在计算两个或多个文本片段之间的相似程度，但是容易将相似度高但存在重要差别的字符串数据归为一组中，往往需要进一步筛选。在煤矿采掘中，常出现一些极为相似的数据内容，其间只有一两个字的差别，其表达的意思就大相径庭，例如，f11回风巷和f10回风巷回风，这两个数据标记了两个完全不同地理位置的两个完全不同的参数，前者记录的是f11回风巷的结构参数，后者记录的可能是f10回风巷中的空气参数，无论是采用关键词分组还是文本相似度分组，这两个词都极有可能被划分在一起进行筛选，从而导致数据分类准确度低。

技术实现思路

1、本专利技术要解决的技术问题是：现有的字符串数据分组方法，数据分类准确度低。

2、为此，本专利技术提供一种矿用数据管理的字符串数据分组方法。

3、本专利技术解决其技术问题所采用的技术方案是：

4、一种矿用数据管理的字符串数据分组方法，包括，

5、步骤一、遍历所有字符串数据，对字符串数据进行分组成字符串组；

6、步骤二、对每个分组方案进行分组效果评价；

7、步骤三、对多个分组方案进行两两对比，进行分组效果优化迭代，具体为：

8、随机选择两个分组方案，并调换两个分组方案中的字符串组，形成新的分组方案，若新的分组方案效果优于原分组方案，则替代原方案。

9、进一步的，在步骤一中，遍历所有字符串数据，为每个字符串计算所有可能的子串，并计算各个子串在所有字符串中出现的频率划分字符串组。

10、进一步的，在步骤一中，当依据一个出现频次最高且字符长度最长的子串得到一个字符串组后，遍历所有剩余字符串数据，为每个剩余字符串计算所有可能的子串，并计算各个子串在所有剩余字符串中出现的频率划分字符串组，直至对所有字符串完成分组形成字符串分组方案。

11、进一步的，在步骤二中，分组效果评价依据以下公式计算：其中，e为分组结果的评价得分，分值越高说明分组效果越好；n为分组总数量；li为第i个分组的组内共同子串的长度；ci为第i个分组的组员数量。

12、进一步的，在步骤三中，根据步骤一中算法得到的字符串分组方案和随机分组方案形成字符串数据的全部初次分组，在所有初次分组中进行分组效果优化迭代。

13、进一步的，在步骤三中，随机选择一定数量的分组方案，随机选择一个字符串，依次计算将其归类到其它组后分组方案的效果评价，选择其中最优的作为新的分组方案替代原方案。

14、进一步的，每种字符串分组方案均包含所有字符串数据且没有重复字符串。

15、本专利技术的有益效果是，本专利技术通过根据分组效果进行迭代优化的方式，将组内字符串的共同子串长度和准确度进行综合考虑，可以让输出的分组结果提高组内共同子串的长度，同时满足分类准确的要求。

16、为了保证分组的准确，在本分组方法中，包含分组共同子串的字符串数据，才能加入该分组，这一点是本分组方法与文本相似度计算类的分组方法之间的重要区别。

17、并且采用分组效果评价和启发式算法来优化分组效果，可以让输出的分组结果提高组内共同子串的长度，将组内字符串的共同子串长度和准确度进行综合考虑，可以让输出的分组结果提高组内共同子串的长度，同时满足分类准确的要求。

本文档来自技高网...

【技术保护点】

1.一种矿用数据管理的字符串数据分组方法，其特征在于，包括，

2.根据权利要求1所述的矿用数据管理的字符串数据分组方法，其特征在于，在步骤一中，遍历所有字符串数据，为每个字符串计算所有可能的子串，并计算各个子串在所有字符串中出现的频率划分字符串组。

3.根据权利要求2所述的矿用数据管理的字符串数据分组方法，其特征在于，在步骤一中，当依据一个出现频次最高且字符长度最长的子串得到一个字符串组后，遍历所有剩余字符串数据，为每个剩余字符串计算所有可能的子串，并计算各个子串在所有剩余字符串中出现的频率划分字符串组，直至对所有字符串完成分组形成字符串分组方案。

4.根据权利要求1所述的矿用数据管理的字符串数据分组方法，其特征在于，在步骤二中，分组效果评价依据以下公式计算：其中，E为分组结果的评价得分，分值越高说明分组效果越好；N为分组总数量；Li为第i个分组的组内共同子串的长度；Ci为第i个分组的组员数量。

5.根据权利要求1所述的矿用数据管理的字符串数据分组方法，其特征在于，在步骤三中，根据步骤一中算法得到的字符串分组方案和随机分组方案形成字

6.根据权利要求5所述的矿用数据管理的字符串数据分组方法，其特征在于，在步骤三中，随机选择一定数量的分组方案，随机选择一个字符串，依次计算将其归类到其它组后分组方案的效果评价，选择其中最优的作为新的分组方案替代原方案。

7.根据权利要求1-6中的任意一项所述的矿用数据管理的字符串数据分组方法，其特征在于，每种字符串分组方案均包含所有字符串数据且没有重复字符串。

...

【技术特征摘要】

1.一种矿用数据管理的字符串数据分组方法，其特征在于，包括，

4.根据权利要求1所述的矿用数据管理的字符串数据分组方法，其特征在于，在步骤二中，分组效果评价依据以下公式计算：其中，e为分组结果...

【专利技术属性】
技术研发人员：唐韬，张卫国，丁瑞琦，奚冬芹，钱杰，卞恺，蒋泽，张立斌，王璐，陈向飞，何敏，郝叶军，蒋志龙，陈佩佩，
申请(专利权)人：天地常州自动化股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人