一种特征抽取方法和装置制造方法及图纸

技术编号：9872812 阅读：127 留言：0更新日期：2014-04-04 06:55

本发明专利技术公开了一种特征抽取方法和装置，应用于一电子设备中，所述方法包括：所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据；将所述统计数据存储在存储模块中；对所述用户-项目历史行为统计数据进行非负用户行为特征抽取，获得特征抽取数据；将所述特征抽取数据存储在所述存储模块中，解决了现有技术中存在不能抽取出能够保证对已知数据的良好还原性和非负性，不能够良好地表征用户行为规律的用户行为特征的技术问题，实现了能抽取出能够保证对已知数据的良好还原性和非负性，能够良好地表征用户行为规律的用户行为特征的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种特征抽取方法和装置
本专利技术涉及计算机数据处理领域，尤其涉及大数据环境中特征抽取方法和装置。
技术介绍
现代大型信息系统，尤其是运营较为成功的商业系统，如大型电子商务系统、搜索系统、社会网络服务系统，其用户数量和信息数量十分巨大。在此类系统中，用户的各种客观历史行为，如点击、浏览、评论、搜索等等，随着系统运营时间的积累，会汇集成为庞大的用户历史行为数据集，数据量至少在TB量级，形成典型的大数据环境。在此类环境中，一种典型的数据描述方式是使用用户-项目历史行为统计矩阵，该矩阵中的每一行对应于一个特定用户；每一列对应于一个特定项目，其中项目指系统中任何可能由用户操作的客观物体，如新闻、图片、商品等等；每一个矩阵元素对应于一个特定用户对一个特定项目的历史行为量化数据，该数据是使用该特定用户对该特定项目的客观历史行为数据，利用符合自然规律的数学统计模型进行量化计算构成。大型商业系统中，用户和项目数量十分巨大，因此，其对应的用户-项目历史行为统计矩阵也是十分巨大的。同时，在通常情况下，一个用户不可能穷尽浏览所有的项目，一个项目也不可能被所有的用户点击；因此，一般而言，用户-项目历史行为统计矩阵中的已知数据往往远远少于未知数据，即，用户-项目历史行为统计矩阵是极端稀疏的。在信息系统运营过程中，基于用户-项目历史行为统计矩阵中的已知数据，从中抽取用户行为特征，可以对用户的行为规律进行有效的分析，从而为系统在运营过程中的信息组织和营销策略的制订提供重要的依据。在用户行为特征的抽取过程中，如何保持用户行为特征的非负性，是一个关键问题。这是因为非负的用户特征更加符合信息...
一种特征抽取方法和装置

【技术保护点】
一种特征抽取方法，应用于一电子设备中，其特征在于，所述方法包括：所述电子设备接收来自服务器所采集的用户?项目历史行为统计数据；将所述统计数据存储在存储模块中；对所述用户?项目历史行为统计数据进行非负用户行为特征抽取，获得特征抽取数据；将所述特征抽取数据存储在所述存储模块中。

【技术特征摘要】
1.一种特征抽取方法，应用于一电子设备中，其特征在于，所述方法包括：所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据；将所述统计数据存储在存储模块中；对所述用户-项目历史行为统计数据进行非负用户行为特征抽取，获得特征抽取数据；将所述特征抽取数据存储在所述存储模块中；对所述统计数据进行特征抽取，具体为：对所述统计数据进行处理稀疏矩阵的非负用户行为特征抽取；对所述用户-项目历史行为统计数据进行非负用户行为特征抽取，获得特征抽取数据，具体包括：对特征抽取过程所需要的参数进行初始化获得第一参数；基于所述统计数据和所述第一参数，训练构造特征数据；通过迭代训练所述特征数据，获得特征抽取数据；其中，所述训练构造特征数据具体包括：首先构造累积绝对误差ε，ε以公式(1)表示：RK表示用户-项目历史行为统计矩阵中的已知数据集合；ru,i表示用户-项目历史行为统计矩阵中第u行，第i列的元素值，代表用户u在项目i上的历史行为统计数据；pu表示用户特征矩阵P的第u行行向量，代表用户u的行为特征向量；qi表示项目特征矩阵Q的第i行行向量，代表已知全部用户对于项目i进行操作的历史行为特征；pu.qi表示向量pu和qi间的内积，||P||F和||Q||F分别表示用户特征矩阵P和项目特征矩阵Q的Frobenius范数，λP和λQ为：Tikhonov规约因子；然后，对用户特征矩阵P和项目特征矩阵Q进行迭代训练，使其满足累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上最小，表示为公式(2)：其中和分别为pu.qi、和的单元素依赖的数学展开形式，f为特征空间维数，同时，训练过程中还需满足用户特征矩阵P和项目特征矩阵Q的非负性，表示为公式(3)：最后，使用单元素依赖的非负用户特征迭代训练过程，在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练，表示为公式(4)：其中，Iu表示具备用户u的历史行为统计数据的项目集合，Ui表示具备项目i的历史行为统计数据的用户集合。2.如权利要求1所述的方法，其特征在于，所述特征数据具体为非负用户行为特征数据，其中，所述非负用户行为特征数据具体包括：用户特征矩阵和项...

【专利技术属性】
技术研发人员：罗辛，夏云霓，陈鹏，吴磊，
申请(专利权)人：重庆大学，成都国科海博信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人