本发明专利技术公开了一种基于社交媒体大数据的旅游流情感时空变化特征研究方法,该方法具体包括如下步骤:S1、过滤没有在景点内发布过微博的用户,通过分析剩余用户的账号注册地识别游客身份;S2、构建旅游相关的情感词典,并为程度副词、否定词和转折连词的情感强度构建语法规则,量化文本情感极性以构建情感得分;S3、综合游客在节点间的可视化运动轨迹和情感得分,获得游客流动过程中的情感变化;S4、利用ROST CM6软件量化社交媒体文本中高频词的共现关系,使用Gephi软件聚类不同词语间的语义关系,从而构建情感画像。利用带有地理标签的社交媒体大数据,可以更精确地探究旅游流情感的时空变化特征,为决策者及时掌握游客兴趣点提供技术支持。术支持。术支持。
【技术实现步骤摘要】
基于社交媒体大数据的旅游流情感时空变化特征研究方法
[0001]
:本专利技术属于地理信息科学和大数据领域,更具体地,本专利技术涉及一种基于社交媒体大数据的旅游流情感时空变化特征研究方法。
技术介绍
:
[0002]旅游业越来越成为区域经济发展的重要组成部分,它带动了区域间大量人口的流动。旅游流是游客从出发地到目的地的群体流动,是旅游业从业者和研究者关注的主要问题。旅游流多维特征的可视化研究对于城市休闲和娱乐场所、公共服务设施、交通、旅游开发等城市结构的设计具有重要意义。传统旅游流研究数据主要来源于问卷和旅游管理部门的统计数据,难以获得不同景点之间游客流动的具体信息。位置数据的出现提供了一种解决方案,不同类型的位置数据如手机位置数据和带有地理标签的社交媒体数据,为探索城市内部旅游流带来了新的机遇。与传统数据相比,位置数据可以更详细地记录群体流动的空间、时间、人口和情感信息。然而,目前现有的基于位置数据的研究主要集中在旅游流的数量、方向和人口特征上,关于游客群体流动过程中具体情绪变化的研究较少。与其他特征相比,挖掘旅游流的情感特征能为游客提供一个更加人性化的旅游体验服务。
技术实现思路
:
[0003]本专利技术提供一种基于社交媒体大数据的旅游流情感时空变化特征研究方法。
[0004]本专利技术采用一种基于社交媒体大数据的旅游流情感时空变化特征研究方法实现,所述方法具体包括如下步骤:
[0005]S1、过滤没有在景点内发布过微博的用户,通过分析剩余用户的账号注册地识别游客身份;
[0006]S2、构建旅游相关的情感词典,并为程度副词、否定词和转折连词的情感强度构建语法规则,量化文本情感极性以构建情感得分;
[0007]S3、综合游客在节点间的可视化运动轨迹和情感得分,获得游客流动过程中的情感变化;
[0008]S4、利用ROST CM6软件量化社交媒体文本中高频词的共现关系,使用Gephi软件聚类不同词语间的语义关系,从而构建情感画像。
[0009]进一步的所述分析用户的账号注册地的方法具体包括如下步骤:
[0010]S11、应用“statuses/user timeline”收集所有带有地理标签的新浪微博;
[0011]S12、计算所有用户在北京停留的平均天数;
[0012]S13、对于将账号注册地设置为真实所在国家、省份和地区的用户,将注册地不是北京的用户认定为游客;对于将账号注册地设置为“others”的用户,根据其在北京停留的时间识别游客。
[0013]进一步的所述根据用户在北京停留的时间识别游客的计算方法如下:
[0014]将所有用户在北京停留的平均天数记为对于将账号注册地设置为“others”的用户i,得到概率指数p
i
方法如下:
[0015][0016]其中Bd
i
和Cd
i
分别表示用户在北京和中国停留的天数。当p
i
≤0.5时,用户i被识别为游客。进一步的所述旅游相关的情感词典的构建方法具体包括如下步骤:
[0017]S21、在《知网词典》的基础上构建,词典中的词语被分为不同类型的词语,如积极词语、消极词语、程度副词和否定副词;
[0018]S22、人工提取出微博文本样本中的情感词和表情符号,并按情感词和表情符号的情感极性进行分类。通过与《知网词典》的比较,将未被《知网词典》收录的词语和符号加入以构建一个旅游相关的情感词典。
[0019]进一步的所述语法规则的构建方法如下:
[0020]对于程度副词,根据其情感强度被分为六类,从弱到强依次被分配0.5到3的情感强度倍数。当一个词语或表情符号和一个程度副词连用时,其情感强度需要乘以0.5到3;
[0021]对于否定词,当否定词的数量为奇数时,否定词后的词语和表情符号的情感极性颠倒;为偶数时,极性保持不变;
[0022]对于转折连词,含有主要用于从句的转折连词,主句中的情感极性被颠倒;含有主要用于主句的转折连词,感情极性由主句中的词语和表情符号决定。
[0023]进一步的所述情感得分的构建方法具体包括如下步骤:
[0024]S31、将社交媒体文本分割成句子,按照语法规则,得到表示积极或消极情感的句子的数量;S32、将社交媒体文本中的句子分割成单词,得到表示积极或消极情感的词语的数量;
[0025]S33、确定由游客p发布的社交媒体文本t的情感得分的计算公式如下:
[0026][0027]其中和分别表示通过应用语法规则计算出的积极句子和消极句子的数量,和分别表示积极词语和消极词语的数量。
[0028]进一步所述的综合游客在节点间的可视化运动轨迹和情感得分的方法具体包括如下步骤:
[0029]S41、将每对连续的时间间隔小于6h的带有地理标签的社交媒体数据视为路径;
[0030]S42、将每条路径的起点位置和终点位置限制在离路网最近的节点;
[0031]S43、应用Dijkstra算法获得最短网络路径,每条轨迹由相邻网络节点之间的有向连接序列组成;
[0032]S44、基于相邻路网节点之间的有向连接,计算游客个体从一个节点移动到另一个节点的情感变化;
[0033]S45、将每条轨迹的有向连接分类为白天(6:00
‑
17:59)和夜间(18:00
‑
5:59),计算不同时间段的从节点向节点移动过程中的情感变化;
[0034]S46、将旅游流网络情感变化的计算方法归一化。
[0035]进一步所述的游客个体从一个节点移动到另一个节点的情感变化的计算方法如下:
[0036]对于游客个体p,在从节点i
‑
1到节点i的移动过程中,游客个体p的情感变化的计
算公式如下:
[0037][0038]其中和分别表示游客个体p在节点i
‑
1和节点i的情感得分。
[0039]进一步所述的不同时间段的从节点向节点移动过程中的情感变化的计算方法如下:
[0040]不同时间段的从节点i
‑
1向节点i移动过程中的情感变化的计算公式如下:
[0041][0042][0043]其中表示游客个体j从节点i
‑
1移动到节点i的情感变化;n和m分别表示白天和夜间从节点i
‑
1移动到节点i的游客数量。
[0044]进一步所述的旅游流网络情感变化的归一化计算方法如下:
[0045][0046][0047]其中和分别表示白天情感变化的最小值和最大值,和分别表示夜间情感变化的最小值和最大值。
[0048]本专利技术提供的旅游流情感时空变化特征研究方法具有如下有益技术效果:
[0049](1)使用基于带有地理标签的社交媒体大数据的旅游流情感时空变化特征研究方法,相较于以往的方法,可以更精确地探究旅游流情感的时空变化特征,为决策者及时掌握游客兴趣点与旅游焦点本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于社交媒体大数据的旅游流情感时空变化特征研究方法,其特征在于,所述方法具体包括如下步骤:S1、过滤没有在景点内发布过微博的用户,通过分析剩余用户的账号注册地识别游客身份;S2、构建旅游相关的情感词典,并为程度副词、否定词和转折连词的情感强度构建语法规则,量化文本情感极性以构建情感得分;S3、综合游客在节点间的可视化运动轨迹和情感得分,获得游客流动过程中的情感变化;S4、利用ROST CM6软件量化社交媒体文本中高频词的共现关系,使用Gephi软件聚类不同词语间的语义关系,从而构建情感画像。2.如权利要求1所述的基于社交媒体大数据的旅游流情感时空变化特征研究方法,其特征在于,分析用户的账号注册地的方法具体包括如下步骤:S11、应用“statuses/user timeline”收集所有带有地理标签的新浪微博;S12、计算所有用户在北京停留的平均天数;S13、对于将账号注册地设置为真实所在国家、省份和地区的用户,将注册地不是北京的用户认定为游客;对于将账号注册地设置为“others”的用户,根据其在北京停留的时间识别游客。3.如权利要求2所述的旅游流情感时空变化特征研究方法,其特征在于,对于将账号注册地设置为“others”的用户,根据其在北京停留的时间识别游客的方法具体如下:将所有用户在北京停留的平均天数记为对于将账号注册地设置为“others”的用户i,得到概率指数p
i
方法如下:其中Bd
i
和Cd
i
分别表示用户在北京和中国停留的天数,当p
i
≤0.5时,用户i被识别为游客。4.如权利要求1所述的基于社交媒体大数据的旅游流情感时空变化特征研究方法,其特征在于,旅游相关的情感词典的构建方法具体包括如下步骤:S21、在《知网词典》的基础上构建,词典中的词语被分为不同类型的词语,如积极词语、消极词语、程度副词和否定副词;S22、人工提取出微博文本样本中的情感词和表情符号,并按情感词和表情符号的情感极性进行分类,通过与《知网词典》的比较,将未被《知网词典》收录的词语和符号加入以构建一个旅游相关的情感词典。5.如权利要求1所述的基于社交媒体大数据的旅游流情感时空变化特征研究方法,其特征在于,语法规则的构建方法具体如下:对于程度副词,根据其情感强度被分为六类,从弱到强依次被分配0.5到3的情感强度倍数,当一个词语或表情符号和一个程度副词连用时,其情感强度需要乘以0.5到3;对于否定词,当否定词的数量为奇数时,否定词后的词语和表情符号的情感极性颠倒;为偶数时,极性保持不变;对于转折连词,含有主要用于从句的转折连词,主句中的情感极性被颠倒;含有主要用
于主句的转折连词...
【专利技术属性】
技术研发人员:姜伟,宋晓晴,黄孙玮彧,
申请(专利权)人:安徽师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。