一种基于语义实时分析的热控方法及系统技术方案

技术编号：31374363 阅读：18 留言：0更新日期：2021-12-15 11:06

本发明专利技术提供了一种基于语义实时分析的热控方法及系统，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词并将采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组得到集合Cps，根据计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列，选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端，实现了根据实时的搜索热词对多个相关文本的信息筛选和信息提取，达到了根据实时的搜索关键词进行实时分析和热控。析和热控。析和热控。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义实时分析的热控方法及系统

[0001]本专利技术属于信息处理
，具体涉及一种基于语义实时分析的热控方法及系统。

技术介绍

[0002]互联网是现在人们搜索获取关键信息和人们话题的重要途径，在现代信息传播中具有重要的意义。用户通过互联网能够实时大规模的表达自身的观点态度，同时造成实时而巨大的社会舆论影响。当前的热控监测系统在互联网的大规模信息的处理方面，利用了人工智能和分布式大数据技术的监控系统，在公开号为CN109582801A的公开中所述的一种基于情感分析热点事件跟踪及分析的方法，尽管可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内并达到了通过识别关键词文本中情感文本来准确的理解关键词词义的目的，但是不利于对实时的搜索系统的热搜关键词进行高效地信息提取。

技术实现思路

[0003]本专利技术的目的在于提出一种基于语义实时分析的热控方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。
[0004]本专利技术提供了一种基于语义实时分析的热控方法及系统，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词并将采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组得到集合Cps，根据计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列，选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端，实现了根据实时搜...

【技术保护点】

【技术特征摘要】
1.一种基于语义实时分析的热控方法，其特征在于，所述方法包括以下步骤：S100，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词；S200，采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储；S300，分别读取多个不同的文本文件为多个不同的字符串，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组，将多个不同的分词数组作为集合Cps；S400，根据搜索排名的关键词，计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列；S500，计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列；S600，将关键关联序列发送到客户端。2.根据权利要求1所述的一种基于语义实时分析的热控方法，其特征在于，在S100中，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词的方法为：通过网络爬虫技术实时采集互联网网页数据、以及搜索排名的热搜关键词，热搜关键词记作关键词，所述互联网网页数据和搜索排名的关键词的获取来源为百度API接口、搜狗API接口、360搜索API接口、必应搜索API接口中的一个或多个搜索API接口。3.根据权利要求1所述的一种基于语义实时分析的热控方法，其特征在于，在S200中，采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储的方法为：采集到的互联网网页数据以JSON格式进行储存为结构化数据，结构化数据中包含对应的网页数据的字符串数据以及其采集网址的URL，对不同的结构化数据按照其不同的URL分别进行读取各个结构化数据中的字符串数据，对读取到的字符串数据按照不同的URL划分为多个不同的文本文件进行存储。4.根据权利要求2所述的一种基于语义实时分析的热控方法，其特征在于，在S300中，分别读取多个不同的文本文件为多个不同的字符串，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组，将多个不同的分词数组作为集合Cps的方法为：分别读取多个不同的文本文件中的有效字符信息作为多个不同的字符串，将读取到的每个字符串分别通过中文分词算法进行切分得到多个不同的字符串数组记为分词数组，将多个不同的分词数组的集合记为集合Cps。5.根据权利要求4所述的一种基于语义实时分析的热控方法，其特征在于，在S400中，根据搜索排名的关键词，计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列的方法为：将搜索排名的关键词的集合记为集合Querys，记集合Querys中元素的数量为n，集合Querys中的元素的序号为i，i∈[1,n]，有Querys＝{Q(1),Q(2),
…
,Q(n
‑
1),Q(n)}；记集合Cps中元素的数量为m，集合Cps中的元素的序号为j，j∈[1,m]，有Cps＝{Cps(1),Cps(2),
…
,Cps(m
‑
1),Cps(m)}；记变量k表示集合Cps中每个分词数组Cps(j)的数组长度，变量h表示分词数组Cps(j)中的字符串的序号，Cps(j)表示Cps(j,h)表示集合Cps中序号为j的元素中序号为h的字符串，h∈[1,k]，有Cps(j)＝[Cps(j,1),Cps(j,1),
…
,Cps(j,k
‑
1),Cps(j,k)]；记函数Glv()为通过词嵌入算法计算输入的字符串得到其词向量的函数，Glv(Cps(j,h))表示集合Cps中序号为j的元素中序号为h的字符串通过词嵌入算法得到的词向量，记G(j,h)＝Glv(Cps(j,h))，Glv(Q(i))表示集合Querys中序号为i元素的字符串通过词嵌入算法得到的词向量，记Gq(i)＝Gl...

【专利技术属性】
技术研发人员：杨建仁，
申请(专利权)人：广州云硕科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人