本发明专利技术公开了一种基于移动信令的大数据营销方法,其特征在于,包括:建立应用类型模型库和算法库,其中应用类型模型库包含不同应用类型的应用模型;对输入数据进行抽样,对抽样后的样本数据进行主成分分析PCA和关键字匹配,以确定输入数据的应用类型,并根据该应用类型确定其对应的应用模型;根据输入数据的应用类型进行数据筛选;对得到的筛选后的数据进行分片,并对分片后的数据进行数据分布式存储处理;根据主成份分析结果得出应用类型模型库中不存在与输入数据的应用类型相对应的应用模型;根据所得的组合分类算法的算法本身对输入数据的格式要求。本发明专利技术能够为大数据提供精准的处理模型,对不同的应用场景具有通用性。
【技术实现步骤摘要】
本专利技术属于互联网领域,更具体地,涉及。
技术介绍
随着信息技术的迅猛发展以及人们获取信息手段的多样化,社会各行各业都拥有 大量的信息数据。电信运营商的数据仓库中已经累积大量原始数据未得利用,运营商在经 营过程中,已经出现了大量客户流失和业务收入下滑的现象。在使用现有业务支撑系统外, 更多的只能是通过相关报表看到这些现象发生的结果,再采取相应的措施,并不能有一个 事先的预警,以至于不能及时采取相应的战略调整。另外,目前的业务支撑系统的数据处理 速度和响应时间较慢,因此也导致管理层和决策层都不能及时地得到数据结果。 为此,运营商从战略层面上对大数据展开部署,利用云计算的强大计算能力,迅速 处理大数据信息,关注实际业务,进行数据采集分析挖掘,将数据转化为精准营销生产力。 目前,已有一些企业和研究机构在大数据处理领域提出了一些专利技术申请。 例如,在中国专利技术申请CN201210571477. 6中提出了一种基于PaaS平台的大数据 处理方法,其中所述系统包括PaaS平台服务器及其上构建的多个Service服务器和与每个 Service服务器相关联的hadoop集群。所述方法为用户终端向PaaS平台服务器发送数据 处理请求;PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指 令;所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作 业;所述hadoop集群将作业结果返回给所述Service服务器;所述Service服务器将作 业结果返回给PaaS平台服务器;PaaS平台服务器根据所述作业结果向用户终端返回服务 响应。然而,该方法只是提供一种大数据分布式处理实现系统,却并未说明具体大数据处理 的方法。 中国专利技术申请CN201210590482. 1中提出了一种高精度多维计数布鲁姆过滤器及 其大数据处理方法,所述方法为在高精度多维计数布鲁姆过滤器中存储一定规模或具有相 应特性的多维属性数据集;读取需要处理的多维属性大数据集;进行高精度多维计数布鲁 姆过滤器处理,包括多维元素查询和更新等;输出经过处理后的多维属性数据集。然而,该 方法是针对多维属性数据集,进行高精度多维计数布鲁姆过滤器处理,在高精度多维计数 布鲁姆过滤器中存储一定规模或具有相应特性的多维属性数据集,待处理的多维属性大数 据集需要满足布鲁姆过滤器的输入格式要求;另外,该方法仅提供了一种数据价值"提纯" 的方法,并未形成大数据处理框架系统。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于移动信令的大数据 营销方法,其目的在于,能够利用分布式存储技术提高海量数据处理效率,同时,本专利技术能 够为大数据提供精准的处理模型,对不同的应用场景具有通用性。 为实现上述目的,按照本专利技术的一个方面,提供了一种基于移动信令的大数据营 销方法,包括以下步骤: (1)建立应用类型模型库和算法库,其中应用类型模型库包含不同应用类型的应 用模型; (2)对输入数据进行抽样,对抽样后的样本数据进行主成分分析PCA和关键字匹 配,以确定输入数据的应用类型,并根据该应用类型确定其对应的应用模型; (3)根据输入数据的应用类型进行数据筛选; (4)对步骤(3)得到的筛选后的数据进行分片,并对分片后的数据进行数据分布 式存储处理; (5)根据步骤(2)中的主成份分析结果得出应用类型模型库中不存在与输入数据 的应用类型相对应的应用模型; (6)根据步骤(5)所得的组合分类算法的算法本身对输入数据的格式要求,对输 入数据进行相应数据变换以得到满足分类算法输入数据格式要求的输入数据; (7)对样本数据进行模型训练,用训练后的模型对所有输入数据进行模型实施; (8)对步骤(7)训练出来的模型进行评估,将新模型加入应用类型模型库并更新 应用类型模型库; (9)调用应用类型模型库中对应的应用模型对输入数据进行分析处理,发布数据 分析结果,并将结果反馈到输入端,形成自动化闭环模型体系。 优选地,初始阶段,应用类型模型库中没有应用模型,所有应用模型均以增量的方 式被加入到应用类型模型库中;算法库中包含不同的数据分类算法以及算法的适用场景, 可根据不同的应用类型的场景及数据特征,自适应地选取符合要求的算法。 优选地,步骤⑵包括以下子步骤: (2. 1)采用自适应渐进抽样法对输入数据进行抽样,以得到η维样本数据X= {Xl,x2,. . .,χη},其中X表示输入数据中某个字段中的数据,η为自然数; (2. 2)对η维样本数据进行主成分分析,以找到样本数据中的关键字; (2. 3)提取步骤(2. 2)中查找到的关键字与模型库中关键字进行匹配,并判断模 型库中是否存在与该关键字相应的应用模型,如果是则进入步骤(9),否则进入步骤(3)。 优选地,步骤(2. 2)具体为,首先是利用如下公式(1)计算η维样本数据X的协方 差矩阵S; 然后将S矩阵的特征值按照从大到小的顺序排列: 果前m(其中1 <m<η)个特征值之和占总特征值之和的比率达到90%以上,则选择输入 数据中与前m个特征值对应的字段为关键字。 优选地,步骤⑶包括以下子步骤: (3. 1)根据查找到的样本数据中的关键字,从输入数据中提取与该关键字相对应 的字段的原始数据; (3. 2)对提取出来的原始数据进行K均值聚类,并根据聚类结果判断离群点和重 复数据点,将离群点和重复数据点删除,对删除离群点和重复数据点之后的数据进行以下 处理:对于值不一致的数据点以及值缺失的数据点的值用样本均值代替; (3. 3)随机抽取一部分清洗过的数据作为检测数据,利用切比雪夫定理对步骤 (3. 2)中清洗过的所有数据进行检测,并判断数据错误率是否低于阈值0. 5%,若数据错误 率低于0.5%,则审核通过,然后进入步骤(4),否则重复步骤(3.2); 优选地,步骤(4)具体为,首先检测磁盘利用率,判断磁盘空间是否满足筛选后的 数据的存储容量要求,若磁盘空间满足要求,则将筛选后的数据存储在指定磁盘;若磁盘空 间不满足要求,则对筛选后的数据进行分片,将分片数据分布存储在指定终端。 优选地,步骤(5)包括以下子步骤: (5. 1)根据输入数据的统计特性及字段属性在算法库中选择所有满足要求的分 类算法,并用选择出来的分类算法分别对样本数据进行分类,从而得到不同的分类结果,并 计算该分类结果的准确率; (5. 2)将所选的分类算法编码为二进制字符串;并将一元线性回归方程作为适应 度函数f(y),用于描述分类算法的分类结果的准确率; (5. 3)计算分类算法 丫;被选中的概率为f(y;) /(f(yj+f(y2) +· · ·+f(yn)); (5. 4)根据分类算法被选的概率大小对分类算法的二进制编码随机的进行交叉组 合,或者对分类算法的二进制编码进行小范围的变异,以产生分类结果,并将以上交叉组合 和变异的过程不断重复下去,直到找出组合分类算法的近似最优组合。 优选地,步骤(6)包括以下子步骤: (6. 1)对所有数据进行对象聚焦处理,并根据步骤(2)中的协方差矩阵S对聚焦处 理后的数据进行降维; (6. 2)按比例对降维后的连续数据进行离散化,并对离散后的数据进行变量本文档来自技高网...
【技术保护点】
一种基于移动信令的大数据营销方法,其特征在于,包括以下步骤:(1)建立应用类型模型库和算法库,其中应用类型模型库包含不同应用类型的应用模型;(2)对输入数据进行抽样,对抽样后的样本数据进行主成分分析PCA和关键字匹配,以确定输入数据的应用类型,并根据该应用类型确定其对应的应用模型;(3)根据输入数据的应用类型进行数据筛选;(4)对步骤(3)得到的筛选后的数据进行分片,并对分片后的数据进行数据分布式存储处理;(5)根据步骤(2)中的主成份分析结果得出应用类型模型库中不存在与输入数据的应用类型相对应的应用模型;(6)根据步骤(5)所得的组合分类算法的算法本身对输入数据的格式要求,对输入数据进行相应数据变换以得到满足分类算法输入数据格式要求的输入数据;(7)对样本数据进行模型训练,用训练后的模型对所有输入数据进行模型实施;(8)对步骤(7)训练出来的模型进行评估,将新模型加入应用类型模型库并更新应用类型模型库;(9)调用应用类型模型库中对应的应用模型对输入数据进行分析处理,发布数据分析结果,并将结果反馈到输入端,形成自动化闭环模型体系。
【技术特征摘要】
【专利技术属性】
技术研发人员:莫益军,秦思,王冼,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。