System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种数据清洗系统。
技术介绍
1、随着人们生活的便捷化,人们之间的交流越来越密切,进而催生出大量的短信数据,这些短信数据来自各类网络、企业等,蕴含数据生产者的真实意图和喜好,故亟需对这些短信数据进行我们现有大量的短信数据,需要从这些数据中进行数据挖掘,清洗出对我们有用的信息,形成用户画像,便于后期营销的时候结合用户画像进行精准营销,以提升营销成功率。
2、现有技术如公开号为cn110009416a的专利技术公开了一种基于大数据清洗和ai精准营销的系统,其仅通过去除其中的脏、假、伪、废等数据获取清洗后的数据,再进行进一步的数据分析匹配和数据挖掘等多步骤操作,以获取用户画像进行精准营销,通过上述操作可以获取准确的用户画像或群体标签,且处理后的数据精度高,使得后期的营销服务更为个性化和人性化。但是其数据处理的步骤冗长且繁琐,导致数据处理消耗较多的时间,不利于营销效率的提升。
3、为了解决上述问题,本专利技术提出一种数据清洗系统。
技术实现思路
1、本专利技术的目的在于提出一种数据清洗系统以解决
技术介绍
中所提出的问题:
2、现有技术中数据处理的步骤冗长且繁琐,导致数据处理消耗较多的时间,不利于营销效率和成功率的提升。
3、为了实现上述目的,本专利技术采用了如下技术方案:
4、一种数据清洗系统,包括:
5、标签划分模块:用于将短信数据按照不同层级进行划分;
6、模板建立模块:用
7、数据收集模块:用于按照时间划分区间收集各用户的短信数据;
8、清洗入库模块:用于对短信数据进行清洗,并将短信数据与短信模板进行匹配和入库处理;
9、定时维护模块:用于定时更新维护用户的时间区间标签。
10、优选地,所述标签划分模块将短信数据划分为行业级标签、平台级标签和事件级标签。
11、优选地,所述行业级标签对应的数据保存在主表中,所述平台级标签对应的数据保存在行业字表中。
12、优选地,所述清洗入库模块包括数据清洗模块、数据匹配模块和数据入库模块;
13、所述数据清洗模块用于对短信数据进行清洗;
14、所述数据匹配模块用于对清洗后的短信数据与短信模板进行匹配,并将短信对应的用户添加对应的事件标签;
15、所述数据入库模块用于根据所述数据匹配模块的匹配结果进行数据入库处理。
16、优选地,所述数据清洗模块包括第一清洗模块、第二清洗模块和第三清洗模块;
17、所述第一清洗模块用于对采集的短信数据进行重复值去除和缺失值填充的初步清洗处理;
18、所述第二清洗模块用于对初步清洗处理结果进行进一步的异常数据处理;
19、所述第三清洗模块用于基于数据挖掘算法对所述第二清洗模块的清洗结果进行短信数据的挖掘清洗。
20、优选地,所述第三清洗模块的数据挖掘算法具体如下:
21、设定条件集合:
22、p={p1,p2,…,pp}
23、其中,p表示数据挖掘过程中的条件集合;p1,p2,…,pp表示数据挖掘过程中设定的第一个、第二个、...、第p个条件;|p|表示数据挖掘过程中设定的全部条件;
24、根据数据挖掘的条件集合,进一步设定为此次挖掘提供准确结果的挖掘方案集合如下:
25、f={f1,f2,…,ff}
26、其中,f表示数据挖掘过程中的方案集合;f1,f2,…,ff表示数据挖掘过程中设定的第一个、第二个、...、第f|个方案;|f|表示数据挖掘过程中设定的全部方案;
27、根据条件集合和方案集合计算出挖掘过程中的判断矩阵如下:
28、
29、其中,w表示数据挖掘过程中的方案集合;表示判断矩阵中根据第|p|个条件和第|f|个方案形成的判断依据;
30、判断依据的权重条件满足:
31、
32、其中,wa表示第a个权重系数,|q为权重系数的个数;
33、各判断依据的权重基于改进粒子群算法进行寻优获取:
34、vij(t)=ωvij(t)+c1r1(pij(t)-xij(t))+c2r2(gij(t)-xij(t))
35、xij(t+1)=xij(t)+vij(t+1)
36、其中,i=1,2,…,n表示粒子的个数;j=1,2,…,m表示搜索空间的维数;t表示迭代次数;vij表示粒子i第j维的速度;xij表示粒子i第j维的位置;ω表示惯性权重,为常数;c1、c2表示学习因子;r1、r2表示[0,1]之间的随机数;pij表示粒子i第j维的最佳位置;gij表示整个群体中所有粒子i第j维的最佳位置;
37、基于遗传操作对粒子i和粒子k的速度和位置分布进行交叉操作如下:
38、
39、其中,α、β表示[0,1]之间的随机值;vkj(t)表示粒子k第j维的速度;xkj(t)表示粒子k第j维的位置;
40、更新个体极值与群体全局极值并进行重复迭代直至得到最佳权重参数;
41、基于寻优获取的判断矩阵进行归一化处理和从大到小的排序处理,基于排序结果选取排序信息获得清洗后的数据。
42、优选地,所述数据匹配模块还基于改进粒子群算法进行短信数据与各层级标签的寻优匹配。
43、与现有技术相比,本专利技术提供了一种数据清洗系统,具备以下有益效果:
44、本专利技术基于多步骤的数据清洗操作获取精准的短信数据,并通过对应标签的条件进行数据的进一步清洗,精准获取对应的有用信息,快速形成用户画像,提升后期结合用户画像进行营销的精准度和速度,以提升营销成功率。
本文档来自技高网...【技术保护点】
1.一种数据清洗系统,其特征在于,包括:
2.根据权利要求1所述的一种数据清洗系统,其特征在于,所述标签划分模块(100)将短信数据划分为行业级标签、平台级标签和事件级标签。
3.根据权利要求2所述的一种数据清洗系统,其特征在于,所述行业级标签对应的数据保存在主表中,所述平台级标签对应的数据保存在行业字表中。
4.根据权利要求1所述的一种数据清洗系统,其特征在于,所述清洗入库模块(400)包括数据清洗模块(410)、数据匹配模块(420)和数据入库模块(430);
5.根据权利要求4所述的一种数据清洗系统,其特征在于,所述数据清洗模块(410)包括第一清洗模块(411)、第二清洗模块(412)和第三清洗模块(413);
6.根据权利要求5所述的一种数据清洗系统,其特征在于,所述第三清洗模块(413)的数据挖掘算法具体如下:
7.根据权利要求6所述的一种数据清洗系统,其特征在于,所述数据匹配模块(420)还基于改进粒子群算法进行短信数据与各层级标签的寻优匹配。
【技术特征摘要】
1.一种数据清洗系统,其特征在于,包括:
2.根据权利要求1所述的一种数据清洗系统,其特征在于,所述标签划分模块(100)将短信数据划分为行业级标签、平台级标签和事件级标签。
3.根据权利要求2所述的一种数据清洗系统,其特征在于,所述行业级标签对应的数据保存在主表中,所述平台级标签对应的数据保存在行业字表中。
4.根据权利要求1所述的一种数据清洗系统,其特征在于,所述清洗入库模块(400)包括数据清洗模块(410)、数据匹配模块(4...
【专利技术属性】
技术研发人员:杨瑞,
申请(专利权)人:上海瑞释信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。