一种基于机器学习勾勒人物画像的方法、设备、存储介质技术

技术编号:33731952 阅读:21 留言:0更新日期:2022-06-08 21:27
本申请公开了一种基于机器学习勾勒人物画像的方法、设备、存储介质,该方法包括:获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。的画像。的画像。

【技术实现步骤摘要】
一种基于机器学习勾勒人物画像的方法、设备、存储介质


[0001]本申请涉及机器学习、大数据分析领域,尤其涉及一种基于机器学习勾勒人物画像的方法、设备、存储介质。

技术介绍

[0002]软件开发的领域中,人工智能这个领域越来越热,越来越多的公司在人工智能方面大量的投入人力物力去研究提升。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。
[0003]企业通过投放广告实现营销,但是,如果没有精准的将广告投放到有需求的人群,不仅会使营销效果达不到预期,而且还会消耗企业的大量成本。
[0004]为了能够更方便、深刻的了解用户需要,便需要通过大数据技术分析用户的日常,使广告更加精准有效地投放,在方便用户的同时也能够给品牌或者企业带来更高的投资回报率。

技术实现思路

[0005]本申请提供了一种基于机器学习勾勒人物画像的方法、设备、存储介质,解决了如何实现精准推送,满足用户个性化需求的技术问题。
[0006]一种基于机器学习勾勒人物画像的方法,包括:
[0007]获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
[0008]获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
[0009]获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
[0010]获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
[0011]采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
[0012]根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
[0013]通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
[0014]在本申请的一种实施例中,所述获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的兴趣爱好标签;将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练,得到第一代兴趣
爱好模型;将检测数据集输入所述第一代兴趣爱好模型中,输出兴趣爱好标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练,以使所述兴趣爱好模型判断逐渐精确。
[0015]在本申请的一种实施例中,所述获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行为习惯标签;将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练,得到第一代行为习惯模型;将检测数据集输入所述第一代行为习惯模型中,输出时间标签和对应所述时间标签的行为标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练,得到第二代行为习惯模型;多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使所述行为习惯模型判断逐渐精确。
[0016]在本申请的一种实施例中,所述获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的作息习惯标签;将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练,得到第一代作息习惯模型;将检测数据集输入所述第一代作息习惯模型中,输出时间标签和对应所述时间标签的作息习惯;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练,得到第二代作息习惯模型;多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使所述作息习惯模型判断逐渐精确。
[0017]在本申请的一种实施例中,所述获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行动轨迹标签;将标记好行动轨迹标签的训练样本集输入到所述行动轨迹模型进行训练,得到第一代行动轨迹模型;将检测数据集输入所述第一代行动轨迹模型中,输出时间标签和对应所述时间标签的行动轨迹标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使所述行动轨迹模型判断逐渐精确。
[0018]在本申请的一种实施例中,所述方法还包括:获取用户在社交平台发布的动态中的图片信息;对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹。
[0019]在本申请的一种实施例中,所述方法还包括:获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;确定得分最高的动态对应的发布的时
间作为作息时间。
[0020]在本申请的一种实施例中,所述方法还包括:在获得各个模型的样本数据后,对所述样本数据进行预处理,包括:通过筛选去掉只有唯一值的特征,去掉缺失值超过90%的特征;对布尔型的值进行编码形成0或1;对数值类型的值进行归一化处理;对字符串类型进行独热one

hot编码。
[0021]一种基于机器学习勾勒人物画像的设备,包括:
[0022]至少一个处理器;以及,
[0023]与所述至少一个处理器通信连接的存储器;其中,
[0024]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0025]获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
[0026]获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习勾勒人物画像的方法,其特征在于,包括:获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。2.根据权利要求1所述的方法,其特征在于,所述获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的兴趣爱好标签;将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练,得到第一代兴趣爱好模型;将检测数据集输入所述第一代兴趣爱好模型中,输出兴趣爱好标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练,以使所述兴趣爱好模型判断逐渐精确。3.根据权利要求1所述的方法,其特征在于,所述获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行为习惯标签;将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练,得到第一代行为习惯模型;将检测数据集输入所述第一代行为习惯模型中,输出时间标签和对应所述时间标签的行为标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练,得到第二代行为习惯模型;多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使所述行为习惯模型判断逐渐精确。4.根据权利要求1所述的方法,其特征在于,所述获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的作息习惯标签;将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练,得到第一代作息习惯模型;将检测数据集输入所述第一代作息习惯模型中,输出时间标签和对应所述时间标签的作息习惯;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练,得到第二代作息习惯模型;多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使所述作息习惯模型判断逐渐精确。5.根据权利要求1所述的方法,其特征在于,所述获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中...

【专利技术属性】
技术研发人员:赵志庆侯玉柱王巍董席峰丁英莲靳学庚
申请(专利权)人:戎行技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1