本发明专利技术公开了一种特征抽取方法和装置,应用于一电子设备中,所述方法包括:所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据;将所述统计数据存储在存储模块中;对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;将所述特征抽取数据存储在所述存储模块中,解决了现有技术中存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
【技术实现步骤摘要】
一种特征抽取方法和装置
本专利技术涉及计算机数据处理领域,尤其涉及大数据环境中特征抽取方法和装置。
技术介绍
现代大型信息系统,尤其是运营较为成功的商业系统,如大型电子商务系统、搜索系统、社会网络服务系统,其用户数量和信息数量十分巨大。在此类系统中,用户的各种客观历史行为,如点击、浏览、评论、搜索等等,随着系统运营时间的积累,会汇集成为庞大的用户历史行为数据集,数据量至少在TB量级,形成典型的大数据环境。在此类环境中,一种典型的数据描述方式是使用用户-项目历史行为统计矩阵,该矩阵中的每一行对应于一个特定用户;每一列对应于一个特定项目,其中项目指系统中任何可能由用户操作的客观物体,如新闻、图片、商品等等;每一个矩阵元素对应于一个特定用户对一个特定项目的历史行为量化数据,该数据是使用该特定用户对该特定项目的客观历史行为数据,利用符合自然规律的数学统计模型进行量化计算构成。大型商业系统中,用户和项目数量十分巨大,因此,其对应的用户-项目历史行为统计矩阵也是十分巨大的。同时,在通常情况下,一个用户不可能穷尽浏览所有的项目,一个项目也不可能被所有的用户点击;因此,一般而言,用户-项目历史行为统计矩阵中的已知数据往往远远少于未知数据,即,用户-项目历史行为统计矩阵是极端稀疏的。在信息系统运营过程中,基于用户-项目历史行为统计矩阵中的已知数据,从中抽取用户行为特征,可以对用户的行为规律进行有效的分析,从而为系统在运营过程中的信息组织和营销策略的制订提供重要的依据。在用户行为特征的抽取过程中,如何保持用户行为特征的非负性,是一个关键问题。这是因为非负的用户特征更加符合信息系统中用户行为的自然规律,能够更好地对用户行为进行表征。非负特征抽取多用于计算机视觉领域,其基本特点是对于给定的图形或者图像,将其视为一个满秩矩阵,并对其进行非负条件限制下的矩阵因式分解,从而抽取出该图形或图像的局部物体特征。但是,信息系统中的非负用户行为提取问题,与计算机视觉中的非负物体特征抽取问题,具备很大的区别。这是因为计算机视觉中的非负物体特征抽取所处理的图形、图像所转化的矩阵是满秩矩阵,且不具备缺失值,此类矩阵的非负矩阵因式分解问题可以借助常规的矩阵迭代运算进行处理;而信息系统中的非负用户行为抽取问题,所处理的用户-项目历史行为统计矩阵,通常情况下是极端稀疏的,其中具备大量的缺失值,无法使用传统的矩阵迭代运算进行处理。因此,如何针对大型信息系统中的、具备大量缺失值的用户-项目历史行为统计矩阵,进行非负条件限制下的矩阵因式分解,抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征,是对现代大型信息系统所产生的海量数据进行分析所需要处理的一个关键问题。综上所述,本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:在现有技术中,由于现在现有的信息系统中进行非负用户行为抽取时,所处理的用户-项目历史行为统计矩阵,通常情况下是极端稀疏的,其中具备大量的缺失值,无法使用传统的矩阵迭代运算进行处理,所以,现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而不能对用户的行为规律进行有效的分析,从而不能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据。
技术实现思路
本申请实施例通过提供一种特征抽取方法和装置,解决了现有技术中存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。为解决上述技术问题,本申请实施例一方面提供了一种特征抽取方法,应用于一电子设备中,所述方法包括:所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据;将所述统计数据存储在存储模块中;对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;将所述特征抽取数据存储在所述存储模块中。其中,所述对所述统计数据进行特征抽取,具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取。进一步地,所述对所述统计数据进行特征抽取,获得特征抽取数据,具体包括:首先,对特征抽取过程所需要的参数进行初始化获得第一参数;然后,基于所述统计数据和所述第一参数,训练构造特征数据;最后,通过迭代训练所述特征数据,获得特征抽取数据。其中,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。另一方面,本申请实例还提供一种特征抽取装置,所述特征抽取装置包括:数据接收模块,用于接收来自服务器所采集的用户-项目历史行为统计数据来;特征抽取模块,用于对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;存储模块,用于存储所述统计数据和所述特征抽取数据。其中,所述特征抽取模块具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取的模块。其中,所述特征抽取模块具体包括:参数初始化单元,用于对特征抽取过程所需要的参数进行初始化获得第一参数;特征训练单元,用于基于所述统计数据和所述第一参数,训练构造特征数据;迭代训练单元,用于通过迭代训练所述特征数据,获得特征抽取数据。其中,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:1、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。2、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能对用户的行为规律进行有效的分析,从而不能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术问题,进而实现了能对用户的行为规律进行有效的分析,进而能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术效果。附图说明图1为本申请实施例中特征抽取方法的流程图;图2为本申请实施例中特征抽取装置的结构图;图3为本申请实施例中特征抽取模块的结构图;图4为本申请实施例中用户-项目历史行为统计数据存储流程图;图5为本申请实施例中非负用户行为特征抽取流程图。具体实施方式本申请实施例通过提供一种特征抽取方法和装置,本文档来自技高网...
【技术保护点】
一种特征抽取方法,应用于一电子设备中,其特征在于,所述方法包括:所述电子设备接收来自服务器所采集的用户?项目历史行为统计数据;将所述统计数据存储在存储模块中;对所述用户?项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;将所述特征抽取数据存储在所述存储模块中。
【技术特征摘要】
1.一种特征抽取方法,应用于一电子设备中,其特征在于,所述方法包括:所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据;将所述统计数据存储在存储模块中;对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;将所述特征抽取数据存储在所述存储模块中;对所述统计数据进行特征抽取,具体为:对所述统计数据进行处理稀疏矩阵的非负用户行为特征抽取;对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据,具体包括:对特征抽取过程所需要的参数进行初始化获得第一参数;基于所述统计数据和所述第一参数,训练构造特征数据;通过迭代训练所述特征数据,获得特征抽取数据;其中,所述训练构造特征数据具体包括:首先构造累积绝对误差ε,ε以公式(1)表示:RK表示用户-项目历史行为统计矩阵中的已知数据集合;ru,i表示用户-项目历史行为统计矩阵中第u行,第i列的元素值,代表用户u在项目i上的历史行为统计数据;pu表示用户特征矩阵P的第u行行向量,代表用户u的行为特征向量;qi表示项目特征矩阵Q的第i行行向量,代表已知全部用户对于项目i进行操作的历史行为特征;pu.qi表示向量pu和qi间的内积,||P||F和||Q||F分别表示用户特征矩阵P和项目特征矩阵Q的Frobenius范数,λP和λQ为:Tikhonov规约因子;然后,对用户特征矩阵P和项目特征矩阵Q进行迭代训练,使其满足累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上最小,表示为公式(2):其中和分别为pu.qi、和的单元素依赖的数学展开形式,f为特征空间维数,同时,训练过程中还需满足用户特征矩阵P和项目特征矩阵Q的非负性,表示为公式(3):最后,使用单元素依赖的非负用户特征迭代训练过程,在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练,表示为公式(4):其中,Iu表示具备用户u的历史行为统计数据的项目集合,Ui表示具备项目i的历史行为统计数据的用户集合。2.如权利要求1所述的方法,其特征在于,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项...
【专利技术属性】
技术研发人员:罗辛,夏云霓,陈鹏,吴磊,
申请(专利权)人:重庆大学,成都国科海博信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。