一种数据挖掘方法和装置制造方法及图纸

技术编号:10574115 阅读:93 留言:0更新日期:2014-10-29 09:25
本发明专利技术涉及数据挖掘,其公开了一种数据挖掘方法和装置,该方法包括:收集信息完备的事件集合的数据和信息不完备的事件集合的数据;利用所述信息完备的事件集合的数据训练至少一个预测模型;获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度;根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型;以及利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。根据本发明专利技术实施例的数据挖掘方法利用事件的动态数据和预测模型的数据来填充缺失的数据,即使在已知的静态数据非常少或者已知的静态数据质量很差的情况下,依然能够实现较精准的数据填充。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及数据挖掘,其公开了一种数据挖掘方法和装置,该方法包括:收集信息完备的事件集合的数据和信息不完备的事件集合的数据;利用所述信息完备的事件集合的数据训练至少一个预测模型;获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度;根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型;以及利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。根据本专利技术实施例的数据挖掘方法利用事件的动态数据和预测模型的数据来填充缺失的数据,即使在已知的静态数据非常少或者已知的静态数据质量很差的情况下,依然能够实现较精准的数据填充。【专利说明】一种数据挖掘方法和装置
本专利技术涉及数据挖掘,更具体地,涉及对缺失的事件信息进行补充的方法和装置。
技术介绍
随着软硬件计算能力的增强,大数据时代的来临和商业智能的日趋重要,越来越 多的分析技术和系统工具被人们研发出来,分析和挖掘社会和商业活动中产生的大量数 据,以此达到决策支持,归纳总结等目的。目前大多数工作关注和解决如何在给定的数据集 上更好地挖掘潜在的信息,其前提往往假设数据本身是完整和准确的。 然而现实世界的数据常常有缺失、不一致、精度低和噪声多等数据质量的问题。需 要进行数据预处理来提高数据精度和清洗数据。目前方案往往是利用部分完整的数据样本 的静态数据来推断和补全另一部分缺失或者不精确的数据样本的静态数据,具体实现采用 聚类、回归、分类等技术,而这些方案在缺失数据所占总体数据比重较大,或者缺失的静态 数据和已有的静态数据之间相关性不大的情况时,往往效果不理想。 因此需要一种新的数据挖掘方法,在已知的静态数据非常少或者已知的静态数据 质量很差的情况下,依然能够实现较精准的数据填充。
技术实现思路
根据本专利技术的一个方面,提供了一种数据挖掘方法,包括:收集信息完备的事件集 合的数据和信息不完备的事件集合的数据;利用所述信息完备的事件集合的数据训练至少 一个预测模型;获得所述信息不完备的事件集合的数据与所述至少一个预测模型的相关 度;根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型;以及利用所述 匹配的预测模型的数据补充所述信息不完备的事件集合的数据。 根据本专利技术的另一个方面,提供了一种数据挖掘装置,包括:数据收集模块,被配 置为收集信息完备的事件集合的数据和信息不完备的事件集合的数据;模型训练模块,被 配置为利用所述信息完备的事件集合的数据训练至少一个预测模型;相关度获取模块,被 配置为获得所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度;模型匹 配模块,被配置为根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型; 以及数据补充模块,被配置为利用所述匹配的预测模型的数据补充所述信息不完备的事件 集合的数据。 根据本专利技术实施例的数据挖掘方法和装置利用事件的动态数据和预测模型的数 据来填充缺失的数据,即使在已知的静态数据非常少或者已知的静态数据质量很差的情况 下,依然能够实现较精准的数据填充。 【专利附图】【附图说明】 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。 图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框 图。 图2示出根据本专利技术实施例的数据挖掘方法。 图3示出本专利技术的一个实施例的用户与模型的对应关系图。 图4示出根据本专利技术一个实施例的数据挖掘装置400。 【具体实施方式】 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方 式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。 所属
的技术人员知道,本专利技术可以实现为系统、方法或计算机程序产品。 因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括 固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为"电路"、"模 块"或"系统"。此外,在一些实施例中,本专利技术还可以实现为在一个或多个计算机可读介质 中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。 可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计 算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限 于一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算 机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便 携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储 器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、 或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程 序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号, 其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一但 不限于一电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是 计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者 传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限 于一无线、电线、光缆、RF等等,或者上述的任意合适的组合。 可以以一种或多种程序设计语言或其组合来编写用于执行本专利技术操作的计算机 程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++, 还包括常规的过程式程序设计语言一诸如" C"语言或类似的程序设计语言。程序代码可以 完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部 分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在 涉及远程计算机的情形中,远程计算机可以通过任意种类的网络--包括局域网(LAN)或 广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提 供商来通过因特网连接)。 下面将参照本专利技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或 框图描述本专利技术。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方 框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专 用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指 令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中 规定的功能/操作的装置。 也可以把这些计算机程序指令存储在能使得计算机本文档来自技高网
...
一种数据挖掘方法和装置

【技术保护点】
一种数据挖掘方法,包括:收集信息完备的事件集合的数据和信息不完备的事件集合的数据;利用所述信息完备的事件集合的数据训练至少一个预测模型;获取所述信息不完备的事件集合的数据与所述至少一个预测模型的相关度;根据获取的相关度为所述信息不完备的事件集合匹配对应的预测模型;以及利用所述匹配的预测模型的数据补充所述信息不完备的事件集合的数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:严骏驰王瑜朱俊田春华潘小勇
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1