一种基于信息资源库的政务用户画像构建方法及其系统技术方案

技术编号：25802802 阅读：29 留言：0更新日期：2020-09-29 18:36

本发明专利技术提供一种基于信息资源库的政务用户画像构建方法及其系统，所述方法包括：系统汇聚原始资源，根据存储介质构建多源计算模型；为资源自动匹配相应压缩算法并切片，根据网络环境自适应调整切片大小，运用数字指纹算法为每个切片生成数字指纹，经比对将有效切片与多源计算模型进行匹配，统一编码、自动寻址后存储；分析存储的数字指纹特征，智能抽取特征输出特定标签，运用聚类算法自动关联特定标签，构建用户分析模型，开展机器训练和加权计算，根据权重生成用户画像；运用推荐算法对用户画像打分实现精准推送，本技术通过对用户政务数据的智能分析梳理，构建法人/自然人用户画像，为实现政府网站的千人千网、专人专网的精准推送奠定基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于信息资源库的政务用户画像构建方法及其系统
本专利技术属于数据处理、可视化
，尤其涉及一种基于信息资源库的政务用户画像构建方法及其系统。
技术介绍
在互联网大数据时代，网络信息高度冗杂，尤其是在各类事务相互交叉关联、重复使用度高的政府领域，更需要对数据有极高的专业处理能力，对政务数据进行全面的挖掘和分析，实现信息的精准采集和推送，降低不断重复提交的政务手续，实现政府网站千人千网、专人专网的精准定位。目前，现有的画像构建方法是采集用户行为数据，去除冗余数据，对清洗后数据进行分析处理和特征提取，形成用户标签并生成用户画像，以实现精准营销。但是，这种技术方案也存在不足，其只能解决传统领域中数据规模不大、容易采集和存储的资源，而对于政府领域，由于横向跨部门、纵向分级的管理结构，各部门、各层级系统间的数据多是相互独立的，并且存储形式分散无序，无法实现完整采集，统一有序的管理，进而对用户特征无法全面提取和有效描述，也就无法进行精准推送，这个是当前急需解决的问题。
技术实现思路
为了解决现有技术对政务数据采集不完整导致画像描述不准确无法实现精确推送的问题，本专利技术提供一种基于信息资源库的政务用户画像构建方法及其系统，通过构建分类科学、集中规范、共享共用的信息资源库，按照“先入库，后使用”原则，对来自平台上各政府网站的信息资源以及对接应用系统数据库中的资源进行统一管理，实现统一采集、统一分类、统一元数据、统一数据格式、统一调用、统一监管，并运用压缩算法优化采集性能，通过模板自动切片智能提取特...

【技术保护点】
1.一种基于信息资源库的政务用户画像构建方法，其特征在于：包括如下步骤：/nS1、系统汇聚原始资源；/nS2、判断各个存储介质的特性，构建多源计算模型；/nS3、判断原始资源的数据类型、大小和使用频率，为原始资源自动匹配合适的压缩算法并切片；/nS4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断，超出指定阈值时自适应调整传输切片大小；/nS5、运用数字指纹算法为每个切片生成一个数字指纹；/nS6、比对数字指纹，指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址，并存储到无限数据列表中，否则放弃采集；/nS7、分析列表中的数字指纹特征，智能抽取特征输出特定标签；/nS8、运用聚类算法自动关联特定标签并构建用户分析模型，对用户分析模型进行机器训练和加权计算，判断标签权重生成用户画像；/nS9、运用推荐算法对用户画像进行评分，根据分数进行多终端精准推送。/n

【技术特征摘要】
1.一种基于信息资源库的政务用户画像构建方法，其特征在于：包括如下步骤：
S1、系统汇聚原始资源；
S2、判断各个存储介质的特性，构建多源计算模型；
S3、判断原始资源的数据类型、大小和使用频率，为原始资源自动匹配合适的压缩算法并切片；
S4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断，超出指定阈值时自适应调整传输切片大小；
S5、运用数字指纹算法为每个切片生成一个数字指纹；
S6、比对数字指纹，指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址，并存储到无限数据列表中，否则放弃采集；
S7、分析列表中的数字指纹特征，智能抽取特征输出特定标签；
S8、运用聚类算法自动关联特定标签并构建用户分析模型，对用户分析模型进行机器训练和加权计算，判断标签权重生成用户画像；
S9、运用推荐算法对用户画像进行评分，根据分数进行多终端精准推送。

2.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述S1进一步包括以下步骤：
S1.1、分布式搜索引擎对采集源分区域设立检索服务器；
S1.2、经URL地址重写将动态网页标准化为静态网页；
S1.3、网页模板引擎访问静态网页，从页面中分离出动态数据保存到缓存系统中，SSI直译服务器对静态网页做动态数据更新；
S1.4、运用文本挖掘算法对缓存中数据进行汇聚。

3.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述S3进一步包括以下步骤：
S3.1、判断原始资源是否为图片，若是，使用RLE压缩算法；
S3.2、否则，判断原始资源是否为音视频，若是，使用Rice压缩算法；
S3.3、否则，判断原始资源是否为文本及其他类型，若是，使用deflate压缩算法；
S3.4、对压缩后资源进行切片。

4.如权利要求3所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述S3.3中文本为小文件时，使用snappy压缩算法。

5.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述S7进一步包括以下步骤：
S7.1、分析列表中的数字指纹特征；
S7.2、当为网页元数据，运用DOM节点剪枝算法分类网页模板；
S7.3、针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链；
S7.4、分析视觉模型的结构化特征；
S7.5、智能抽取特征输出特定标签。

6.如权利要求1或5所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述数字指纹是指每条元数据集的唯一编码；所述特定标签由不同类型的元数据集构成，元数据集又由元数据组成，每条元数据集包含一个数字指纹，唯一对应一个特定标签；所述特定标签根据输出顺序不同包括：事实标签、模型标签和预测标签。

7.如权利要求6所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述事实标签是指在政务活动中产生的行为数据，所述模型标签是指将行为数据通过数字指纹进行关联汇聚而成的用户特征，所述预测标签是指根据行为数据对用户特征进行预判形成的预测特征。

8.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述S8进一步包括以下步骤：
S8.1、运用聚类算法自动关联事实标签，构建用户分析模型；
S8.2、对用户分析模型进行机器训练，输出模型标签；
S8.3、运用预测算法对模型标签进行预判，输出预测标签；
S8.4、对预测标签进行加权计算，判断标签权重生成用户画像。

9.如权利要求1或8所述的一种基于信息资源库的政务用户画像构建方法，其特征在于：所述用户画像是指对...

【专利技术属性】
技术研发人员：汪敏，严妍，王静，刘轩山，周键，
申请(专利权)人：开普云信息科技股份有限公司，北京开普云信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人