数据分析方法及其系统技术方案

技术编号:9906930 阅读:135 留言:0更新日期:2014-04-11 05:53
本发明专利技术的实施方式总体上涉及数据处理,进一步本发明专利技术的实施方式涉及数据分析及其系统。本发明专利技术用于提供一种个性化的数据分析方法从而找到目标分析项目中有区别度的特征。具体而言,本发明专利技术提供一种数据分析方法,包括:获取样本数据,选择所述样本数据的判别性特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。

【技术实现步骤摘要】
数据分析方法及其系统
本专利技术的实施方式总体上涉及数据处理,进一步本专利技术的实施方式涉及数据分析及其系统。
技术介绍
数据分析已经在很多重要领域发挥重要作用。很多网络应用都向用户推荐商品(包括图书、电影等各种商品)以及推荐好友。比如在在线书店中,当用户购买或浏览图书时,在线书店可能向用户推荐他/她可能感兴趣的图书。再比如在在线社交网络中,用户可能被推荐好友。在线应用往往根据用户的个人数据和之前的网络行为进行推荐。借助于所述推荐系统,用户能够容易的获得更多的信息。但是很多推荐算法过于复杂(比如矩阵分解模型MatrixFactorization,某些基于概率的模型,基于图的模型等)导致推荐应用本身都无法解释为何向用户推荐某个项目而不是其它项目。此外,有些推荐系统即便给出推荐的理由,但是所述理由也不是个性化的,而是使用通用的理由进行推荐,比如当用户浏览一个在线书店的书A时,该在线书店将书B推荐给用户,其理由是购买了书A的其它用户也购买了书B。
技术实现思路
为了提供一种个性化的数据分析方法从而找到目标分析项目中有区别度的特征,专利技术提供一种数据分析方案。具体而言,本专利技术提供一种数据分析方法,包括:获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。本专利技术还提供一种数据分析系统,包括:获取装置,被配置为获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择装置,被配置为选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;确定装置,被配置为对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及关联装置,被配置为响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。通过本专利技术的数据分析方案可以个性化的识别目标分析项目中有区分度的特征,从而使得数据分析结果更加详尽、充实。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了适于用来实现本专利技术实施方式的示例性计算系统100的框图。图2示出了按照本专利技术的一个实施例的数据分析方法的流程图。图3示出了按照本专利技术的一个实施例的选择判别性特征的流程图。图4A示出了按照本专利技术的一个实施例的样本数据示意图。图4B示出了按照本专利技术的另一个实施例的样本数据示意图。图4C示出了按照本专利技术的又一个实施例的样本数据示意图。图5示出了按照本专利技术的一个实施例的数据分析系统示意图。图6示出了按照本专利技术的一个实施例的选择装置的示意图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。所属
的技术人员知道,本专利技术可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本专利技术还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(DPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括--但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本专利技术操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。下面将参照本专利技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本专利技术。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能使得计算机或其它可编程本文档来自技高网
...
数据分析方法及其系统

【技术保护点】
一种数据分析方法,包括:获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。

【技术特征摘要】
1.一种数据分析方法,包括:获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联,其中所述选择所述样本数据的判别性特征进一步包括:确定所述样本数据中的待选特征,以及从所述待选特征中选择判别性特征,包括:计算所述待选特征的区分度值;根据所述区分度值从所述待选特征中筛选出判别性特征。2.如权利要求1所述的方法,其中所述获取样本数据进一步包括:根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。3.如权利要求2所述的方法,其中所述操作历史包括下列各项中的至少一项:所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。4.如权利要求1所述的方法,其中所述待选特征进一步包括下列各项中的至少一项:结构化特征、非结构化特征,其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且其中所述非结构化特征包括所述样本数据中的关键词。5.如权利要求1所述的方法,其中所述待选特征进一步包括下列各项中的至少一项:原始特征,所述原始特征包括所述样本数据中项目原有的特征;组合特征,所述组合特征包括多个所述原始特征的组合;概括特征,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。6.如权利要求1所述的方法,其中所述计算所述待选特征的区分度值进一步包括:根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。7.如权利要求1所述的方法,其中所述计算所述待选特征的区分度值进一步包括:根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值。8.如权利要求1所述的方法,其中所述至少一个目标分析项目为至少一个推荐项目,所述选择所述样本数据的判别性特征进一步包括:选择具有正面区分度的待选特征作为判别性特征。9.一种数据分析...

【专利技术属性】
技术研发人员:赵石顽吴贤袁泉
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1