【技术实现步骤摘要】
基于向量查询的自媒体传播图谱分析方法和装置
本专利技术涉及媒体传播分析
,尤其涉及一种基于向量查询的自媒体传播图 谱分析方法和装置。
技术介绍
微博(Weibo)是微型博客(MicroBlog)的简称,即一句话博客,是一个基于用 户关系信息分享、传播以及获取的平台。通过该平台用户可以通过WEB、WAP(Wirele SS Application Protocol,无线应用协议)等各种客户端组建个人社区,在该个人社区中更新 图片、文字或视频等信息,并实现即时分享。 目前,现有技术中的微博传播路径分析方法主要包括:分析微博的转发时间、转发 人、关键账号、转发层级,从而分析出微博传播的路径。 上述现有技术中的微博传播路径分析方法的缺点为:只能对微博单一媒体进行分 析,不能分析微信等其他自媒体;无查询功能,只能提供对特定微博事件的简单统计功能。
技术实现思路
本专利技术的实施例提供了一种基于向量查询的自媒体传播图谱分析方法和装置,以 实现对所有自媒体平台中的媒体信息的传播情况的综合分析。 本专利技术提供了如下方案: -种基于向量查询的自媒体传播图谱分析方法,包括: 采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析 得到结构化的文档数据; 构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用 所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合; 对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所 述事件主题相关的 ...
【技术保护点】
一种基于向量查询的自媒体传播图谱分析方法,其特征在于,包括:采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。
【技术特征摘要】
1. 一种基于向量查询的自媒体传播图谱分析方法,其特征在于,包括: 采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到 结构化的文档数据; 构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述 查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合; 对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事 件主题相关的元组数据集; 根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章 展现出来,生成所述事件主题相关的媒体信息的传播路径。2. 根据权利要求1所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到 结构化的文档数据,包括: 根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒 体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处 理,将格式化的媒体信息分布式地存储在服务器中; 利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分 配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒 体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。3. 根据权利要求2所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述 查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合,包括: 根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分 词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询 向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。4. 根据权利要求3所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事 件主题相关的元组数据集,包括: 对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的 相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于 或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断 阈值的两篇文章判断为属于没有相似性; 将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数 据集中发布时间最早的文章作为原始文章。5. 根据权利要求4所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章 展现出来,生成所述事件主题相关的媒体信息的传播路径,包括: 根据地域特征对所述元组数据集中的各个文章进行地理编码,获取各个文章的经纬度 坐标; 根据各个文章的经纬度坐标,在地理信息系统...
【专利技术属性】
技术研发人员:屈伟,
申请(专利权)人:红麦聚信北京软件技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。