一种基于信息资源库的政务用户画像构建方法及其系统技术方案

技术编号:25802802 阅读:22 留言:0更新日期:2020-09-29 18:36
本发明专利技术提供一种基于信息资源库的政务用户画像构建方法及其系统,所述方法包括:系统汇聚原始资源,根据存储介质构建多源计算模型;为资源自动匹配相应压缩算法并切片,根据网络环境自适应调整切片大小,运用数字指纹算法为每个切片生成数字指纹,经比对将有效切片与多源计算模型进行匹配,统一编码、自动寻址后存储;分析存储的数字指纹特征,智能抽取特征输出特定标签,运用聚类算法自动关联特定标签,构建用户分析模型,开展机器训练和加权计算,根据权重生成用户画像;运用推荐算法对用户画像打分实现精准推送,本技术通过对用户政务数据的智能分析梳理,构建法人/自然人用户画像,为实现政府网站的千人千网、专人专网的精准推送奠定基础。

【技术实现步骤摘要】
一种基于信息资源库的政务用户画像构建方法及其系统
本专利技术属于数据处理、可视化
,尤其涉及一种基于信息资源库的政务用户画像构建方法及其系统。
技术介绍
在互联网大数据时代,网络信息高度冗杂,尤其是在各类事务相互交叉关联、重复使用度高的政府领域,更需要对数据有极高的专业处理能力,对政务数据进行全面的挖掘和分析,实现信息的精准采集和推送,降低不断重复提交的政务手续,实现政府网站千人千网、专人专网的精准定位。目前,现有的画像构建方法是采集用户行为数据,去除冗余数据,对清洗后数据进行分析处理和特征提取,形成用户标签并生成用户画像,以实现精准营销。但是,这种技术方案也存在不足,其只能解决传统领域中数据规模不大、容易采集和存储的资源,而对于政府领域,由于横向跨部门、纵向分级的管理结构,各部门、各层级系统间的数据多是相互独立的,并且存储形式分散无序,无法实现完整采集,统一有序的管理,进而对用户特征无法全面提取和有效描述,也就无法进行精准推送,这个是当前急需解决的问题。
技术实现思路
为了解决现有技术对政务数据采集不完整导致画像描述不准确无法实现精确推送的问题,本专利技术提供一种基于信息资源库的政务用户画像构建方法及其系统,通过构建分类科学、集中规范、共享共用的信息资源库,按照“先入库,后使用”原则,对来自平台上各政府网站的信息资源以及对接应用系统数据库中的资源进行统一管理,实现统一采集、统一分类、统一元数据、统一数据格式、统一调用、统一监管,并运用压缩算法优化采集性能,通过模板自动切片智能提取特征标签,运用聚类算法自动关联标签构建用户分析模型,进而生成用户画像,最后将业务数据与用户画像相匹配,实现精准推荐,为实现政府网站的千人千网、专人专网的精准推送奠定基础。本专利技术提供的一种基于信息资源库的政务用户画像构建方法,具体实现步骤是:系统汇聚原始资源,判断不同存储介质特性,构建多源计算模型;判断原始资源数据类型、大小和使用频率,自动匹配合适的压缩算法并切片;动态收集网络速度、网络质量、后台服务器处理任务量级和处理能力等参数,自适应调整传输切片大小;运用数字指纹算法为每个切片生成一个数字指纹,比对数字指纹后将有效切片与多源计算模型进行匹配,统一编码、自动寻址存储到无限数据列表中;分析列表中的数字指纹特征,智能抽取特征输出特定标签;运用聚类算法自动关联特定标签,构建用户分析模型并进行机器训练和加权计算,根据权重生成用户画像;运用推荐算法对用户画像进行评分,根据得分实现多终端精准推送。进一步地,原始资源来源可包括:区县信息资源库、数据库、文件系统、视频库、图片库、正风行风热线、政务信息公开、政务资料库等。进一步地,多终端可以包括:网站发布系统、两微一端系统、政务服务门户、数据开发平台等。进一步地,用户画像包括:法人用户画像、自然人用户画像。进一步地,系统根据原始资源种类不同自动匹配合适的压缩算法,比如:图片优先使用RLE压缩算法,音视频优先使用Rice压缩算法,文本及其他类型使用deflate压缩算法,小文本优先选择snappy压缩算法。进一步地,存储介质的种类包括:分布式文件系统、分布式缓存系统、非关系型数据库和关系型数据库等。进一步地,针对网页元数据,运用DOM节点剪枝算法分类网页模板,针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链,分析视觉模型的结构化特征并通过模型抽取网页数据进而输出特定标签。进一步地,推荐算法可包括:基于协同过滤的推荐算法、基于关联规则的推荐算法和基于内容的推荐算法等。另外,本专利技术还提供一种可构建政务用户画像的信息资源库系统,该系统包括以下模块:数据采集模块:运用采集工具从互联网、移动互联网多渠道多终端采集原始资源;数据处理和存储模块:判断原始资源的数据类型、大小和使用频率,自动匹配合适的压缩算法并切片;动态收集网络速度、网络质量、服务器处理任务量级和处理能力等参数,自适应调整传输切片大小;运用数字指纹算法为每个切片生成一个数字指纹,比对数字指纹后将有效切片与多源计算模型进行匹配,统一编码、自动寻址并存储到标签语料库中;模型构建和训练模块:判断各种存储介质的特性,构建多源计算模型;从标签语料库中提取特征并输出特定标签,运用聚类算法自动关联特定标签,构建用户分析模型并进行机器训练;画像构建模块:通过用户分析模型对特定标签进行加权计算,根据权重生成用户画像,并存储到用户画像库中;接口管理模块:对采集源、推送终端的接口进行管理;推荐模块:运用推荐算法对用户画像进行评分,根据得分向多终端进行推送。进一步地,数据处理和存储模块包括压缩子模块、指纹生成子模块、标签语料库和用户画像库。进一步地,模型构建和训练模块包括智能提取子模块、模型构建和训练器。进一步地,画像构建模块包括标签计算子模块、画像生成子模块。进一步地,采集工具包括:ETL工具和WEB数据采集工具,不同的采集工具适用于不同的信息源。ETL工具多用于处理关系型数据库系统、XML文件和JSON文件的采集;Web数据采集工具多用于处理Web应用系统。本专利技术提供的一种基于信息资源库的政务用户画像构建的方法及其系统,相比于现有技术具有以下优点:本专利技术作为政务信息的汇聚管理平台,能够有效汇聚用户在政府网站上操作产生的所有信息,比如注册的用户基本信息,访问政府网站的浏览轨迹信息,在政府网站中的留言、投诉、来信、建议等信息,通过政府网站办理企业及个人服务事项的行为信息和过程记录等。通过对这些信息的智能分析梳理,构建法人/自然人政务用户画像,为实现政府网站的千人千网、专人专网的精准推送奠定基础。附图说明图1为实施例一提供的一种基于信息资源库的政务用户画像构建方法的流程示意图。图2为实施例二提供的一种基于政务用户画像的信息资源库系统的结构示意图。具体实施方式上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可以找说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和有点能够更明显易懂,以下为本专利技术的具体实施方式。实施例一参见图1,为本实施例提供的一种基于信息资源库的政务用户画像构建方法,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。该方法具体包括以下步骤:S1、系统汇聚原始资源;S2、判断各个存储介质的特性,构建多源计算模型;S3、判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片;S4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力等参数并判断,超出指定阈值时自适应调整传输切片大小;S5、运用数字指纹算法为每个切片生成一个数字指纹;S6、比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到无限数据列表中,否则放弃采集;S7、分析列表中的数字指纹特征,智能抽取特征输出特本文档来自技高网...

【技术保护点】
1.一种基于信息资源库的政务用户画像构建方法,其特征在于:包括如下步骤:/nS1、系统汇聚原始资源;/nS2、判断各个存储介质的特性,构建多源计算模型;/nS3、判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片;/nS4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断,超出指定阈值时自适应调整传输切片大小;/nS5、运用数字指纹算法为每个切片生成一个数字指纹;/nS6、比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到无限数据列表中,否则放弃采集;/nS7、分析列表中的数字指纹特征,智能抽取特征输出特定标签;/nS8、运用聚类算法自动关联特定标签并构建用户分析模型,对用户分析模型进行机器训练和加权计算,判断标签权重生成用户画像;/nS9、运用推荐算法对用户画像进行评分,根据分数进行多终端精准推送。/n

【技术特征摘要】
1.一种基于信息资源库的政务用户画像构建方法,其特征在于:包括如下步骤:
S1、系统汇聚原始资源;
S2、判断各个存储介质的特性,构建多源计算模型;
S3、判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片;
S4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断,超出指定阈值时自适应调整传输切片大小;
S5、运用数字指纹算法为每个切片生成一个数字指纹;
S6、比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到无限数据列表中,否则放弃采集;
S7、分析列表中的数字指纹特征,智能抽取特征输出特定标签;
S8、运用聚类算法自动关联特定标签并构建用户分析模型,对用户分析模型进行机器训练和加权计算,判断标签权重生成用户画像;
S9、运用推荐算法对用户画像进行评分,根据分数进行多终端精准推送。


2.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S1进一步包括以下步骤:
S1.1、分布式搜索引擎对采集源分区域设立检索服务器;
S1.2、经URL地址重写将动态网页标准化为静态网页;
S1.3、网页模板引擎访问静态网页,从页面中分离出动态数据保存到缓存系统中,SSI直译服务器对静态网页做动态数据更新;
S1.4、运用文本挖掘算法对缓存中数据进行汇聚。


3.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S3进一步包括以下步骤:
S3.1、判断原始资源是否为图片,若是,使用RLE压缩算法;
S3.2、否则,判断原始资源是否为音视频,若是,使用Rice压缩算法;
S3.3、否则,判断原始资源是否为文本及其他类型,若是,使用deflate压缩算法;
S3.4、对压缩后资源进行切片。


4.如权利要求3所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S3.3中文本为小文件时,使用snappy压缩算法。


5.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S7进一步包括以下步骤:
S7.1、分析列表中的数字指纹特征;
S7.2、当为网页元数据,运用DOM节点剪枝算法分类网页模板;
S7.3、针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链;
S7.4、分析视觉模型的结构化特征;
S7.5、智能抽取特征输出特定标签。


6.如权利要求1或5所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述数字指纹是指每条元数据集的唯一编码;所述特定标签由不同类型的元数据集构成,元数据集又由元数据组成,每条元数据集包含一个数字指纹,唯一对应一个特定标签;所述特定标签根据输出顺序不同包括:事实标签、模型标签和预测标签。


7.如权利要求6所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述事实标签是指在政务活动中产生的行为数据,所述模型标签是指将行为数据通过数字指纹进行关联汇聚而成的用户特征,所述预测标签是指根据行为数据对用户特征进行预判形成的预测特征。


8.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S8进一步包括以下步骤:
S8.1、运用聚类算法自动关联事实标签,构建用户分析模型;
S8.2、对用户分析模型进行机器训练,输出模型标签;
S8.3、运用预测算法对模型标签进行预判,输出预测标签;
S8.4、对预测标签进行加权计算,判断标签权重生成用户画像。


9.如权利要求1或8所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述用户画像是指对...

【专利技术属性】
技术研发人员:汪敏严妍王静刘轩山周键
申请(专利权)人:开普云信息科技股份有限公司北京开普云信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1