基于微博舆情的城市间关系测度系统、方法、设备技术方案

技术编号:30792899 阅读:19 留言:0更新日期:2021-11-16 07:56
本发明专利技术属于城市关系测度领域,具体涉及一种基于微博舆情的城市间关系测度系统、方法、设备,旨在解决传统的城市测度方法需要耗费大量的精力统计或搜集基础数据,并且基础数据的时效性滞后,导致城市间的关系测度时效性、准确性较低的问题。本系统包括城市舆情爬取子模块、舆情信息整理子模块与城市关系测度子模块;所述舆情信息整理子模块包括有向无环图分词单元、BERT分词单元和加权计算单元;所述城市关系测度子模块包括第一频率计算单元、第二频率计算单元、城市关系测度单元。本发明专利技术提升了城市间的关系测度时效性、准确性。准确性。准确性。

【技术实现步骤摘要】
基于微博舆情的城市间关系测度系统、方法、设备


[0001]本专利技术属于城市关系测度领域,具体涉及一种基于微博舆情的城市间关系测度系统、方法、设备。

技术介绍

[0002]随着全球化的不断深入以及全球范围竞争的不断加剧,城市群日益成为全球经济竞争的新空间单元,城市群作为城市发展到成熟阶段的最高空间组织形式,其存在基础与其内部众多城市直接的联系息息相关,城市间的联系和互动也构成了城市关系的雏形,相比与传统的测度方法中对于基础数据的大量统计与严重滞后,互联网因其发展的迅速与使用的便利性,逐步成为了反应社会情况最活跃,最快捷和最直接的渠道。基于此,本专利技术结合

微博

这一网络社区的舆情信息,通过对相关账号发布信息的整理分析,实现城市群内城市间的关系测度。

技术实现思路

[0003]为了解决现有技术中的上述问题,即为了解决传统的城市测度方法需要耗费大量的精力统计或搜集基础数据,并且基础数据的时效性滞后,导致城市间的关系测度时效性、准确性较低的问题,本专利技术第一方面,提出了一种基于微博舆情的城市间关系测度系统,该系统包括:城市舆情爬取子模块、舆情信息整理子模块与城市关系测度子模块;
[0004]所述城市舆情爬取子模块,配置为获取待关系测度的城市名称;并在设定主题类型的微博中,通过爬虫技术爬取与待关系测度的城市名称相关的微博数据,作为输入数据;
[0005]所述舆情信息整理子模块包括有向无环图分词单元、BERT 分词单元和加权计算单元;
[0006]所述有向无环图分词单元,配置为构建所述输入数据中各文本对应的有向无环图,并利用动态规划算法寻找有向无环图中概率最大的路径,得到各文本对应的分词结果,作为第一分词结果;根据停用词词典对第一分词结果中的停用词进行删除,得到第二分词结果;
[0007]所述BERT分词单元,配置为通过预构建的词嵌入矩阵提取所述输入数据中各词的词向量;将各词的词向量以及其在文本中的位置输入BERT模型,获取所述输入数据各文本的分词结果,作为第三分词结果;
[0008]所述加权计算单元,配置为将所述输入数据中各文本对应的第二分词结果和第三分词结果进行加权求和,得到各文本的最终分词结果;
[0009]所述城市关系测度子模块包括第一频率计算单元、第二频率计算单元、城市关系测度单元;
[0010]所述第一频率计算单元,配置为基于所述输入数据中各文本的最终分词结果,统计分词后的输入数据中包含各城市名称为词条的微博出现其他城市名称的频率,并以各微博的评论、点赞、转发数量的和为权重,对所述频率进行加权,将加权后的频率作为第一频
率;
[0011]所述第二频率计算单元,配置为以各城市名称为词条,获取其在分词后的输入数据中的词频

逆向文件频率TF

IDF,并进行相乘,作为第二频率;
[0012]所述城市关系测度单元,配置为将所述第一频率、所述第二频率进行加权求和,作为各城市间的关系测度。
[0013]在一些优选的实施方式中,“构建所述输入数据中各文本对应的有向无环图”,其方法为:
[0014]统计所述输入数据中各词的词频,并以字典形式进行存储;
[0015]存储后,以各词的词频为节点,根据各词在文本中的位置及其对应文本的末尾位置,构建有向无环图。
[0016]在一些优选的实施方式中,所述BERT模型其多头注意力层提取多重语义信息的方法为:
[0017][0018]M(Q,K,V)=concat(M
i
)w0[0019]其中,Q,K,V分别为查询向量、键向量和值向量,键向量和值向量,为Q,K,V的投影矩阵,M
i
为单头自注意力机制层,w0为权重矩阵, M(Q,K,V)表示多头自注意力机制层,concat表示合并,表示单头自注意力算法。
[0020]在一些优选的实施方式中,所述BERT模型其点积注意力层处理过程为:
[0021][0022]其中,Attention(Q,K,V)表示点积注意力层的自注意力算法, T表示转置,d
k
表示键向量K的维度。
[0023]在一些优选的实施方式中,所述词条的词频的获取方法为:
[0024][0025]其中,tf
i,j
表示词条在文本中出现的频率,即词频,n
i,j
表示该词条在文件d
j
中出现的次数,∑
k
n
k,j
表示文件d
j
中所有词条出现的总数目。
[0026]在一些优选的实施方式中,所述逆向文件频率,其获取方法为:
[0027][0028]其中,idf
i
表示第i个文件的逆向文件频率,|D|为微博舆情文件总数,{j:t
i
∈d
j
}表示包含词条t
i
的文件数目。
[0029]本专利技术的第二方面,提出了一种基于微博舆情的城市间关系测度方法,该方法包括:
[0030]S10,获取待关系测度的城市名称;并在设定主题类型的微博中,通过爬虫技术爬取与待关系测度的城市名称相关的微博数据,作为输入数据;
[0031]S20,构建所述输入数据中各文本对应的有向无环图,并利用动态规划算法寻找有
向无环图中概率最大的路径,得到各文本对应的分词结果,作为第一分词结果;根据停用词词典对第一分词结果中的停用词进行删除,得到第二分词结果;
[0032]通过预构建的词嵌入矩阵提取所述输入数据中各词的词向量;将各词的词向量以及其在文本中的位置输入BERT模型,获取所述输入数据各文本的分词结果,作为第三分词结果;
[0033]将所述输入数据中各文本对应的第二分词结果和第三分词结果进行加权求和,得到各文本的最终分词结果;
[0034]S30,基于所述输入数据中各文本的最终分词结果,统计分词后的输入数据中包含各城市名称为词条的微博出现其他城市名称的频率,并以各微博的评论、点赞、转发数量的和为权重,对所述频率进行加权,将加权后的频率作为第一频率;
[0035]以各城市名称为词条,获取其在分词后的输入数据中的词频
ꢀ‑
逆向文件频率TF

IDF,并进行相乘,作为第二频率;
[0036]将所述第一频率、所述第二频率进行加权求和,作为各城市间的关系测度。
[0037]本专利技术的第三方面,提出了一种电子设备,至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求上述的基于微博舆情的城市间关系测度方法。
[0038]本专利技术的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求上述的基于微博舆情的城市间关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于微博舆情的城市间关系测度系统,其特征在于,该系统包括:城市舆情爬取子模块、舆情信息整理子模块与城市关系测度子模块;所述城市舆情爬取子模块,配置为获取待关系测度的城市名称;并在设定主题类型的微博中,通过爬虫技术爬取与待关系测度的城市名称相关的微博数据,作为输入数据;所述舆情信息整理子模块包括有向无环图分词单元、BERT分词单元和加权计算单元;所述有向无环图分词单元,配置为构建所述输入数据中各文本对应的有向无环图,并利用动态规划算法寻找有向无环图中概率最大的路径,得到各文本对应的分词结果,作为第一分词结果;根据停用词词典对第一分词结果中的停用词进行删除,得到第二分词结果;所述BERT分词单元,配置为通过预构建的词嵌入矩阵提取所述输入数据中各词的词向量;将各词的词向量以及其在文本中的位置输入BERT模型,获取所述输入数据各文本的分词结果,作为第三分词结果;所述加权计算单元,配置为将所述输入数据中各文本对应的第二分词结果和第三分词结果进行加权求和,得到各文本的最终分词结果;所述城市关系测度子模块包括第一频率计算单元、第二频率计算单元、城市关系测度单元;所述第一频率计算单元,配置为基于所述输入数据中各文本的最终分词结果,统计分词后的输入数据中包含各城市名称为词条的微博出现其他城市名称的频率,并以各微博的评论、点赞、转发数量的和为权重,对所述频率进行加权,将加权后的频率作为第一频率;所述第二频率计算单元,配置为以各城市名称为词条,获取其在分词后的输入数据中的词频

逆向文件频率TF

IDF,并进行相乘,作为第二频率;所述城市关系测度单元,配置为将所述第一频率、所述第二频率进行加权求和,作为各城市间的关系测度。2.根据权利要求1所述的基于微博舆情的城市间关系测度系统,其特征在于,“构建所述输入数据中各文本对应的有向无环图”,其方法为:统计所述输入数据中各词的词频,并以字典形式进行存储;存储后,以各词的词频为节点,根据各词在文本中的位置及其对应文本的末尾位置,构建有向无环图。3.根据权利要求1所述的基于微博舆情的城市间关系测度系统,其特征在于,所述BERT模型其多头注意力层提取多重语义信息的方法为:M
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)M(Q,K,V)=concat(M
i
)w0其中,Q,K,V分别为查询向量、键向量和值向量,W
iQ
,W
iK
,W
iV
为Q,K,V的投影矩阵,M
i
为单头自注意力机制层,w0为权重矩阵,M(Q,K,V)表示多头自注意力机制层,concat表示合并,Attention(QW
iQ
,KW
iK
,VW
iV<...

【专利技术属性】
技术研发人员:张文生杨阳白江波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1