一种基于语义实时分析的热控方法及系统技术方案

技术编号:31374363 阅读:18 留言:0更新日期:2021-12-15 11:06
本发明专利技术提供了一种基于语义实时分析的热控方法及系统,通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词并将采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储,将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组得到集合Cps,根据计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列,选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端,实现了根据实时的搜索热词对多个相关文本的信息筛选和信息提取,达到了根据实时的搜索关键词进行实时分析和热控。析和热控。析和热控。

【技术实现步骤摘要】
一种基于语义实时分析的热控方法及系统


[0001]本专利技术属于信息处理
,具体涉及一种基于语义实时分析的热控方法及系统。

技术介绍

[0002]互联网是现在人们搜索获取关键信息和人们话题的重要途径,在现代信息传播中具有重要的意义。用户通过互联网能够实时大规模的表达自身的观点态度,同时造成实时而巨大的社会舆论影响。当前的热控监测系统在互联网的大规模信息的处理方面,利用了人工智能和分布式大数据技术的监控系统,在公开号为CN109582801A的公开中所述的一种基于情感分析热点事件跟踪及分析的方法,尽管可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内并达到了通过识别关键词文本中情感文本来准确的理解关键词词义的目的,但是不利于对实时的搜索系统的热搜关键词进行高效地信息提取。

技术实现思路

[0003]本专利技术的目的在于提出一种基于语义实时分析的热控方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0004]本专利技术提供了一种基于语义实时分析的热控方法及系统,通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词并将采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储,将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组得到集合Cps,根据计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列,选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端,实现了根据实时搜索热词对多个相关文本的信息筛选和信息提取,达到了根据实时的搜索关键词进行实时分析和热控。
[0005]为了实现上述目的,根据本公开的一方面,提供一种基于语义实时分析的热控方法,所述方法包括以下步骤:
[0006]S100,通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词;
[0007]S200,采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储;
[0008]S300,分别读取多个不同的文本文件为多个不同的字符串,将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组,将多个不同的分词数组作为集合Cps;
[0009]S400,根据搜索排名的关键词,计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列;
[0010]S500,计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列;
[0011]S600,将关键关联序列发送到客户端。
[0012]进一步地,在S100中,通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词的方法为:通过网络爬虫技术实时采集互联网网页数据、以及搜索排名的热搜关键词,热搜关键词记作关键词,所述互联网网页数据和搜索排名的关键词的获取来源为百度API接口、搜狗API接口、360搜索API接口、必应搜索API接口中的一个或多个搜索API接口,其中,网络爬虫技术包括主题网络爬虫(Topical Crawler)、Fish Search算法、Sharksearch算法增量式网络爬虫(Incremental Web Crawler)或者Deep Web爬虫中任意一种。
[0013]进一步地,在S200中,采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储的方法为:采集到的互联网网页数据以JSON格式进行储存为结构化数据,结构化数据中包含对应的网页数据的字符串数据以及其采集网址的URL,对不同的结构化数据按照其不同的URL分别进行读取各个结构化数据中的字符串数据,对读取到的字符串数据按照不同的URL划分为多个不同的文本文件进行存储。
[0014]进一步地,在S300中,分别读取多个不同的文本文件为多个不同的字符串,将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组,将多个不同的分词数组作为集合Cps的方法为:分别读取多个不同的文本文件中的有效字符信息作为多个不同的字符串,将读取到的每个字符串分别通过中文分词算法进行切分得到多个不同的字符串数组记为分词数组,将多个不同的分词数组的集合记为集合Cps。
[0015]进一步地,在S400中,根据搜索排名的关键词,计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列的方法为:将搜索排名的关键词的集合记为集合Querys,记集合Querys中元素的数量为n,集合Querys中的元素的序号为i,i∈[1,n],有Querys={Q(1),Q(2),

,Q(n

1),Q(n)},Q(i)表示第i个关键词;
[0016]记集合Cps中元素的数量为m,集合Cps中的元素的序号为j,j∈[1,m],有Cps={Cps(1),Cps(2),

,Cps(m

1),Cps(m)};
[0017]记变量k表示集合Cps中每个分词数组Cps(j)的数组长度,变量h表示分词数组Cps(j)中的字符串的序号,Cps(j,h)表示集合Cps中序号为j的元素中序号为h的字符串,h∈[1,k],有Cps(j)=[Cps(j,1),Cps(j,1),

,Cps(j,k

1),Cps(j,k)];
[0018]记函数Glv()为通过词嵌入算法计算输入的字符串得到其词向量的函数,Glv(Cps(j,h))表示集合Cps中序号为j的元素中序号为h的字符串通过词嵌入算法得到的词向量,记G(j,h)=Glv(Cps(j,h)),Glv(Q(i))表示集合Querys中序号为i元素的字符串通过词嵌入算法得到的词向量,记Gq(i)=Glv(Q(i)),变量q表示词向量的第q维度,变量p表示词向量的维度数量,G(j,h)[q]表示词向量G(j,h)的第q维度的数值,Gq(i)[q]表示词向量Gq(i)的第q维度的数值;
[0019]函数Sim()表示计算输入的两个向量之间的倾向度,函数Sim(Gq(i),G(j,h))表示通过函数Sim()计算词向量Gq(i)和G(j,h)之间的倾向度,倾向度Sim(Gq(i),G(j,h))的计算公式为:
[0020][0021]计算集合Querys中的各个搜索排名的关键词在集合Cps中各分词数组中的多个关
联序列,包括以下步骤
[0022]S401,开始程序;令变量i数值为1;创建空集合Chianset,集合Chianset具有互异性及有序性;转到S402;
[0023]S402,获取Querys中的序号为i的元素Q(i);以Q(i)通过函数Glv()获取Gq(i);转到S403;
[0024]S403,令变量j数值为1;转到S404;
[0025]S404,获取Cps中的序号为j的元素Cps(j);创建空数组Simset;转到S405;
[0026]S405,令变量h数值为1;转到S406;
[0027]S40本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义实时分析的热控方法,其特征在于,所述方法包括以下步骤:S100,通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词;S200,采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储;S300,分别读取多个不同的文本文件为多个不同的字符串,将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组,将多个不同的分词数组作为集合Cps;S400,根据搜索排名的关键词,计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列;S500,计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列;S600,将关键关联序列发送到客户端。2.根据权利要求1所述的一种基于语义实时分析的热控方法,其特征在于,在S100中,通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词的方法为:通过网络爬虫技术实时采集互联网网页数据、以及搜索排名的热搜关键词,热搜关键词记作关键词,所述互联网网页数据和搜索排名的关键词的获取来源为百度API接口、搜狗API接口、360搜索API接口、必应搜索API接口中的一个或多个搜索API接口。3.根据权利要求1所述的一种基于语义实时分析的热控方法,其特征在于,在S200中,采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储的方法为:采集到的互联网网页数据以JSON格式进行储存为结构化数据,结构化数据中包含对应的网页数据的字符串数据以及其采集网址的URL,对不同的结构化数据按照其不同的URL分别进行读取各个结构化数据中的字符串数据,对读取到的字符串数据按照不同的URL划分为多个不同的文本文件进行存储。4.根据权利要求2所述的一种基于语义实时分析的热控方法,其特征在于,在S300中,分别读取多个不同的文本文件为多个不同的字符串,将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组,将多个不同的分词数组作为集合Cps的方法为:分别读取多个不同的文本文件中的有效字符信息作为多个不同的字符串,将读取到的每个字符串分别通过中文分词算法进行切分得到多个不同的字符串数组记为分词数组,将多个不同的分词数组的集合记为集合Cps。5.根据权利要求4所述的一种基于语义实时分析的热控方法,其特征在于,在S400中,根据搜索排名的关键词,计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列的方法为:将搜索排名的关键词的集合记为集合Querys,记集合Querys中元素的数量为n,集合Querys中的元素的序号为i,i∈[1,n],有Querys={Q(1),Q(2),

,Q(n

1),Q(n)};记集合Cps中元素的数量为m,集合Cps中的元素的序号为j,j∈[1,m],有Cps={Cps(1),Cps(2),

,Cps(m

1),Cps(m)};记变量k表示集合Cps中每个分词数组Cps(j)的数组长度,变量h表示分词数组Cps(j)中的字符串的序号,Cps(j)表示Cps(j,h)表示集合Cps中序号为j的元素中序号为h的字符串,h∈[1,k],有Cps(j)=[Cps(j,1),Cps(j,1),

,Cps(j,k

1),Cps(j,k)];记函数Glv()为通过词嵌入算法计算输入的字符串得到其词向量的函数,Glv(Cps(j,h))表示集合Cps中序号为j的元素中序号为h的字符串通过词嵌入算法得到的词向量,记G(j,h)=Glv(Cps(j,h)),Glv(Q(i))表示集合Querys中序号为i元素的字符串通过词嵌入算法得到的词向量,记Gq(i)=Gl...

【专利技术属性】
技术研发人员:杨建仁
申请(专利权)人:广州云硕科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1