热点信息分析方法及设备技术

技术编号:10463563 阅读:135 留言:0更新日期:2014-09-24 16:41
本发明专利技术提供一种热点信息分析方法及设备。热点信息分析方法包括:从互联网数据中提取描述热点事件的热点数据;对整个业务市场中与业务交易有关的业务数据与热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关系,候选热点数据是指热点数据中与业务交易有关的热点数据,候选业务数据是指业务数据中与热点事件有关的业务数据;根据候选热点数据与候选业务数据的对应关系,对候选热点数据进行合并处理,获得目标热点数据和目标热点数据对应的目标业务数据。本发明专利技术技术方案可以进行热点信息的分析,提高分析出的热点信息的准确度。

【技术实现步骤摘要】
热点信息分析方法及设备
】 本专利技术涉及互联网
,尤其涉及一种热点信息分析方法及设备。 【
技术介绍
】 随着业务市场的发展,越来越多的业务行业需要进行热点信息挖掘,以便进行行 业分析或者获取有用的信息。以证券市场为例,证券市场中的热点行情是此起彼伏。现阶 段,股民用户主要是基于自己了解到的股票的市场交易数据和消息面数据,凭借业务经验 进行判断和分析,以获得证券市场中的热点信息。目前这种分析热点信息的方法一方面依 赖于用户的业务经验,另一方面使用用户所能了解到的数据,数据量相对较少,导致分析出 的热点信息的准确度较低。 【
技术实现思路
】 本专利技术的多个方面提供一种热点信息分析方法及设备,用以进行热点信息的分 析,提高分析出的热点信息的准确度。 本专利技术的一方面,提供一种热点信息分析方法,包括: 从互联网数据中提取描述热点事件的热点数据; 对整个业务市场中与业务交易有关的业务数据与所述热点数据进行关联分析,获 得候选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述热点数据中与业 务交易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事件有关的业务数 据; 根据所述候选热点数据与候选业务数据的对应关系,对所述候选热点数据进行合 并处理,获得目标热点数据和所述目标热点数据对应的目标业务数据。 作为本专利技术的进一步改进,所述从互联网数据中提取描述当天热点事件的热点数 据,包括: 从所述互联网数据中确定用户访问数据; 从所述用户访问数据中确定均值突变率大于第一突变率门限且短期突变率大于 第二突变率门限的候选用户访问数据; 对所述候选用户访问数据的真实性进行验证,将通过真实性验证的所述候选用户 访问数据作为描述热点事件的所述热点数据; 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间 内的访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前 一段时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。 作为本专利技术的进一步改进,所述从所述用户访问数据中确定均值突变率大于第一 突变率门限且短期突变率大于第二突变率门限的候选用户访问数据之前,还包括: 获取所述用户访问数据自所述第一时间点到当前的第一平均访问量、所述用户访 问数据自所述第二时间点到当前的第二平均访问量、以及所述用户访问数据当前的访问 量; 用所述用户访问数据当前的访问量除以所述第一平均访问量,获得所述均值突变 率; 用所述用户访问数据当前的访问量除以所述第二平均访问量,获得短期突变率。 作为本专利技术的进一步改进,所述对所述候选用户访问数据的真实性进行验证,包 括: 判断所述候选用户访问数据是否出现在新闻标题的切词片段中; 如果判断结果为是,确定所述候选用户访问数据通过真实性验证;如果判断结果 为否,确定所述候选用户访问数据未通过真实性验证。 作为本专利技术的进一步改进,所述对整个业务市场中与业务交易有关的业务数据与 所述热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关系,包括: 对于每种所述业务数据,确定所述业务数据对应的价格走势和每个所述热点数据 对应的访问量走势之间的相似度,并确定所述业务数据对应的关键词在每个所述热点数据 所属的用户访问数据中的共现次数,如果存在相似度满足预设的相似度条件、且共现次数 大于预设的共现量门限的热点数据,则建立所述业务数据和所述存在的热点数据之间的对 应关系,并确定所述业务数据和所述存在的热点数据分别作为所述候选业务数据和所述候 选热点数据。 作为本专利技术的进一步改进,所述根据所述候选热点数据与候选业务数据的对应关 系,对所述候选热点数据进行合并处理,获得目标热点数据和所述目标热点数据对应的目 标业务数据,包括: 根据所述候选热点数据与候选业务数据的对应关系,确定每个所述候选热点数据 对应的候选业务数据; 将所述候选热点数据两两进行比较,以判断每两个所述候选热点数据对应的候选 业务数据中是否存在相同的候选业务数据且所述相同的候选业务数据的数量满足预设的 重置条件; 如果判断结果为是,则将所述两个候选热点数据进行合并作为新的候选热点数 据,并将所述两个候选热点数据对应的候选业务数据进行合并作为所述新的候选热点数据 对应的候选业务数据,并返回执行将所述候选热点数据两两进行比较,以判断每两个所述 候选热点数据对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选业 务数据的数量满足预设的重叠条件的操作,直到所有判断结果均为否,获得所述目标热点 数据和所述目标热点数据对应的目标业务数据。 作为本专利技术的进一步改进,在获得目标热点数据和所述目标热点数据对应的目标 业务数据之后,还包括: 计算所述目标热点数据的热度值; 输出所述目标热点数据、所述目标热点数据对应的目标业务数据以及所述目标热 点数据的热度值。 本专利技术的另一方面,提供一种热点信息分析设备,包括: 提取模块,用于从互联网数据中提取描述热点事件的热点数据; 分析模块,用于对整个业务市场中与业务交易有关的业务数据与所述热点数据进 行关联分析,获得候选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述 热点数据中与业务交易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事 件有关的业务数据; 合并模块,用于根据所述候选热点数据与候选业务数据的对应关系,对所述候选 热点数据进行合并处理,获得目标热点数据和所述目标热点数据对应的目标业务数据。 作为本专利技术的进一步改进,所述提取模块包括: 第一确定单元,用于从所述互联网数据中确定用户访问数据; 第二确定单元,用于从所述用户访问数据中确定均值突变率大于第一突变率门限 且短期突变率大于第二突变率门限的候选用户访问数据; 验证单元,用于对所述候选用户访问数据的真实性进行验证; 提取单元,用于将通过真实性验证的所述候选用户访问数据作为描述热点事件的 所述热点数据; 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间 内的访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前 一段时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。 作为本专利技术的进一步改进,所述设备还包括:获取模块,用于获取所述用户访问数 据自所述第一时间点到当前的第一平均访问量、所述用户访问数据自所述第二时间点到当 前的第二平均访问量、以及所述用户访问数据当前的访问量; 第一计算模块,用于用所述用户访问数据当前的访问量除以所述第一平均访问 量,获得所述均值突变率,并用所述用户访问数据当前的访问量除以所述第二平均访问量, 获得短期突变率。 作为本专利技术的进一步改进,所述验证单元具体用于判断所述候选用户访问数据是 否出现在新闻标题的切词片段中;如果判断结果为是,确定所述候选用户访问数据通过真 实性验证;如果判断结果为否,确定所述候选用户访问数据未通过真实性验证。 作为本专利技术的进一步改进,所述分析模块具体用于对于每种所述业务数据,确定 所述业务数据对应的价格走势和每个所述热点数据对应的访问量走势之间的相似度,并确 定所述业务数据对应的关键词在每个所述热点数据所属的用户访问数据中的共现次数,如 果存在相似度满足预设的本文档来自技高网...
热点信息分析方法及设备

【技术保护点】
一种热点信息分析方法,其特征在于,包括:从互联网数据中提取描述热点事件的热点数据;对整个业务市场中与业务交易有关的业务数据与所述热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述热点数据中与业务交易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事件有关的业务数据;根据所述候选热点数据与候选业务数据的对应关系,对所述候选热点数据进行合并处理,获得目标热点数据和所述目标热点数据对应的目标业务数据。

【技术特征摘要】
1. 一种热点信息分析方法,其特征在于,包括: 从互联网数据中提取描述热点事件的热点数据; 对整个业务市场中与业务交易有关的业务数据与所述热点数据进行关联分析,获得候 选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述热点数据中与业务交 易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事件有关的业务数据; 根据所述候选热点数据与候选业务数据的对应关系,对所述候选热点数据进行合并处 理,获得目标热点数据和所述目标热点数据对应的目标业务数据。2. 根据权利要求1所述的方法,其特征在于,所述从互联网数据中提取描述当天热点 事件的热点数据,包括: 从所述互联网数据中确定用户访问数据; 从所述用户访问数据中确定均值突变率大于第一突变率门限且短期突变率大于第二 突变率门限的候选用户访问数据; 对所述候选用户访问数据的真实性进行验证,将通过真实性验证的所述候选用户访问 数据作为描述热点事件的所述热点数据; 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间内的 访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前一段 时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。3. 根据权利要求2所述的方法,其特征在于,所述从所述用户访问数据中确定均值突 变率大于第一突变率门限且短期突变率大于第二突变率门限的候选用户访问数据之前,还 包括: 获取所述用户访问数据自所述第一时间点到当前的第一平均访问量、所述用户访问数 据自所述第二时间点到当前的第二平均访问量、以及所述用户访问数据当前的访问量; 用所述用户访问数据当前的访问量除以所述第一平均访问量,获得所述均值突变率; 用所述用户访问数据当前的访问量除以所述第二平均访问量,获得短期突变率。4. 根据权利要求2或3所述的方法,其特征在于,所述对所述候选用户访问数据的真实 性进行验证,包括: 判断所述候选用户访问数据是否出现在新闻标题的切词片段中; 如果判断结果为是,确定所述候选用户访问数据通过真实性验证;如果判断结果为否, 确定所述候选用户访问数据未通过真实性验证。5. 根据权利要求1所述的方法,其特征在于,所述对整个业务市场中与业务交易有关 的业务数据与所述热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关 系,包括: 对于每种所述业务数据,确定所述业务数据对应的价格走势和每个所述热点数据对应 的访问量走势之间的相似度,并确定所述业务数据对应的关键词在每个所述热点数据所属 的用户访问数据中的共现次数,如果存在相似度满足预设的相似度条件、且共现次数大于 预设的共现量门限的热点数据,则建立所述业务数据和所述存在的热点数据之间的对应关 系,并确定所述业务数据和所述存在的热点数据分别作为所述候选业务数据和所述候选热 点数据。6. 根据权利要求1所述的方法,其特征在于,所述根据所述候选热点数据与候选业务 数据的对应关系,对所述候选热点数据进行合并处理,获得目标热点数据和所述目标热点 数据对应的目标业务数据,包括: 根据所述候选热点数据与候选业务数据的对应关系,确定每个所述候选热点数据对应 的候选业务数据; 将所述候选热点数据两两进行比较,以判断每两个所述候选热点数据对应的候选业务 数据中是否存在相同的候选业务数据且所述相同的候选业务数据的数量满足预设的重叠 条件; 如果判断结果为是,则将所述两个候选热点数据进行合并作为新的候选热点数据,并 将所述两个候选热点数据对应的候选业务数据进行合并作为所述新的候选热点数据对应 的候选业务数据,并返回执行将所述候选热点数据两两进行比较,以判断每两个所述候选 热点数据对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选业务数 据的数量满足预设的重叠条件的操作,直到所有判断结果均为否,获得所述目标热点数据 和所述目标热点数据对应的目标业务数据。7. 根据权利要求1、2、3、5或6所述的方法,其特征在于,在获得目标热点数据和所述目 标热点数据对应的目标业务数据之后,还包括: 计算所述目标热点数据的热度值;...

【专利技术属性】
技术研发人员:王晓元陈承泽裘皓萍王杨汤金华
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1