基于向量查询的自媒体传播图谱分析方法和装置制造方法及图纸

技术编号:10458637 阅读:103 留言:0更新日期:2014-09-24 14:33
本发明专利技术实施例提供了一种基于向量查询的自媒体传播图谱分析方法和装置。该方法主要包括:采集自媒体中的各种媒体传播平台所传播的媒体信息,构造事件主题相关的查询语句,利用查询语句的查询向量对媒体信息的文档数据进行查询,输出与事件主题相关的文档集合;对文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成元组数据集;根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,生成事件主题相关的媒体信息的传播路径。本发明专利技术实施例能够实现对所有自媒体平台中的媒体信息的传播情况的综合分析,做到真正的自媒体传播图谱分析,能够实现对自媒体中任意事件的传播分析结果的查询功能。

【技术实现步骤摘要】
基于向量查询的自媒体传播图谱分析方法和装置
本专利技术涉及媒体传播分析
,尤其涉及一种基于向量查询的自媒体传播图 谱分析方法和装置。
技术介绍
微博(Weibo)是微型博客(MicroBlog)的简称,即一句话博客,是一个基于用 户关系信息分享、传播以及获取的平台。通过该平台用户可以通过WEB、WAP(Wirele SS Application Protocol,无线应用协议)等各种客户端组建个人社区,在该个人社区中更新 图片、文字或视频等信息,并实现即时分享。 目前,现有技术中的微博传播路径分析方法主要包括:分析微博的转发时间、转发 人、关键账号、转发层级,从而分析出微博传播的路径。 上述现有技术中的微博传播路径分析方法的缺点为:只能对微博单一媒体进行分 析,不能分析微信等其他自媒体;无查询功能,只能提供对特定微博事件的简单统计功能。
技术实现思路
本专利技术的实施例提供了一种基于向量查询的自媒体传播图谱分析方法和装置,以 实现对所有自媒体平台中的媒体信息的传播情况的综合分析。 本专利技术提供了如下方案: -种基于向量查询的自媒体传播图谱分析方法,包括: 采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析 得到结构化的文档数据; 构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用 所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合; 对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所 述事件主题相关的元组数据集; 根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个 文章展现出来,生成所述事件主题相关的媒体信息的传播路径。 所述的采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进 行分析得到结构化的文档数据,包括: 根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通 过媒体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式 化处理,将格式化的媒体信息分布式地存储在服务器中; 利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文 章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/ 或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。 所述的构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向 量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合,包 括: 根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采 用分词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维 查询向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。 所述的对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果 生成所述事件主题相关的元组数据集,包括: 对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模 型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性 高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二 判断阈值的两篇文章判断为属于没有相似性; 将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元 组数据集中发布时间最早的文章作为原始文章。 所述的根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所 述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径,包括: 根据地域特征对所述元组数据集中的各个文章进行地理编码,获取各个文章的经 纬度坐标; 根据各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,并对各个 文章进行多个维度的展示,把所述事件主题相关的各个文章随着时间和地域的扩散的情况 采用地理信息系统推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域 模型。 -种基于向量查询的自媒体传播图谱分析装置,包括: 媒体信息采集模块,用于采集自媒体中的各种媒体传播平台所传播的媒体信息, 对所述媒体信息进行分析得到结构化的文档数据; 向量查询模块,用于构造事件主题相关的查询语句,对所述查询语句进行向量化 得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的 文档集合; 相似性分析模块,用于对所述文档集合中的各个文档之间进行相似性分析,根据 相似性分析结果生成所述事件主题相关的元组数据集; 传播图谱展现模块,用于根据所述元组数据集中的各个文章的经纬度坐标,在地 理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。 所述的媒体信息采集模块,具体用于根据自媒体中的每种媒体传播平台的特征信 息分别设计对应的媒体采集工具,通过媒体采集工具采集各种媒体传播平台所传播的媒体 信息,将采集到的媒体信息进行格式化处理,将格式化的媒体信息分布式地存储在服务器 中; 利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文 章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/ 或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。 所述的向量查询模块,具体用于根据自媒体中感兴趣的事件主题构造查询语句, 将所述查询语句进行向量化,采用分词技术将向量化的查询语句切分解成多维查询向量, 使用全文查询技术利用所述多维查询向量对所述文档数据进行查询,输出一个与所述事件 主题相关的原始的文档集合。 所述的相似性分析模块,具体用于对所述事件主题相关的原始的文档集合中的两 两文章之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章 判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论 同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性; 将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元 组数据集中发布时间最早的文章作为原始文章。 所述的传播图谱展现模块,具体用于根据各个文章的经纬度坐标,在地理信息系 统上将各个文章展现出来,并对各个文章进行多个维度的展示,把所述事件主题相关的各 个文章随着时间和地域的扩散的情况采用地理信息系统推演的方式展示出来,生成事件主 题相关的媒体信息的传播路径和地域模型。 由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例通过基于向量查 询的自媒体传播图谱分析技术,能够实现对所有自媒体平台中的媒体信息的传播情况的综 合分析,做到真正的自媒体传播图谱分析。本专利技术实施例以向量查询技术为基础,能够实现 对自媒体中任意事件的传播分析结果的查询功能,能够对自媒体传播进行深入分析,自动 生成多维度智能图谱,展示自媒体传播轨迹、传播趋势。 【附图说明】 为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述本文档来自技高网...
基于向量查询的自媒体传播图谱分析方法和装置

【技术保护点】
一种基于向量查询的自媒体传播图谱分析方法,其特征在于,包括:采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。

【技术特征摘要】
1. 一种基于向量查询的自媒体传播图谱分析方法,其特征在于,包括: 采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到 结构化的文档数据; 构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述 查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合; 对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事 件主题相关的元组数据集; 根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章 展现出来,生成所述事件主题相关的媒体信息的传播路径。2. 根据权利要求1所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到 结构化的文档数据,包括: 根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒 体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处 理,将格式化的媒体信息分布式地存储在服务器中; 利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分 配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒 体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。3. 根据权利要求2所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述 查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合,包括: 根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分 词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询 向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。4. 根据权利要求3所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事 件主题相关的元组数据集,包括: 对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的 相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于 或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断 阈值的两篇文章判断为属于没有相似性; 将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数 据集中发布时间最早的文章作为原始文章。5. 根据权利要求4所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所 述的根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章 展现出来,生成所述事件主题相关的媒体信息的传播路径,包括: 根据地域特征对所述元组数据集中的各个文章进行地理编码,获取各个文章的经纬度 坐标; 根据各个文章的经纬度坐标,在地理信息系统...

【专利技术属性】
技术研发人员:屈伟
申请(专利权)人:红麦聚信北京软件技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1