一种基于电路图元素隐喻的主题演化可视化方法技术

技术编号:14202418 阅读:138 留言:0更新日期:2016-12-17 18:53
本发明专利技术属于数据可视化分析领域,具体涉及一种基于电路图元素隐喻的主题演化可视化方法。包括:数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例等。该方法主要能够展示主题的内容、主题的强度随时间的变化及主题与主题间的演化关系以方便用户对主题的演化过程进行分析,还可展示各时段内同一主题强度的地理分布。

A visualization method of topic evolution based on circuit diagram element metaphor

The invention belongs to the field of data visualization analysis, in particular to a visualization method for thematic evolution based on circuit diagram element metaphor. Including: data preprocessing, data preprocess of text, word segmentation, to stop the operation, the text set a thesaurus; using LDA algorithm, the text sets the theme selected, and record the theme and corresponding words, text and time and location information; to pad icon theme words in metaphor that is, the word word disc disc, using the hollow pie chart said, that during this period the term geographical distribution proportion. This method can show the evolution of the theme of the content, the theme of the strength change with time and the theme and theme of analysis to facilitate the evolution of the theme of the user, can also display the geographical distribution of the same subject strength of each period.

【技术实现步骤摘要】

本专利技术属于数据可视化分析领域,具体涉及一种基于电路图元素隐喻的主题演化可视化方法
技术介绍
主题演化是指主题随时间的变化过程,是当今的一个研究热点,可广泛应用于文本挖掘、舆情分析、科研热点分析等领域。其主要任务是应用主题演化算法发现文档集合中主题变化趋势。主题演化研究的结果多以概率等数学形式表现,不易理解,尤其主题间的深化关系不易被发现。于是,需要一种可视化的分析方法来展示并帮助分析主题演化过程。现有主题演化可视化方法主要采用堆叠图(Stacked Chart)、冲击图(Alluvial Diagram)等形式如Themeriver、TestFlow、NEViewer等可视化方法,其特点是能够表现出主题随时间的演化过程和主题的演化关系,但只能表现主题相对强度;堆叠图强调主题演化过程,采用连续图形表现离散量,易产生误解;另外上述各个方法对主题数量多、联系复杂的情况,尤其是小强度主题表现不够清晰,存在小强度主题易被覆盖的问题,同时对组成主题的词表现不清晰或未进行表现。对此,本专利技术提出一种新的、基于电路图隐喻的主题演化可视化方法来解决上述问题。
技术实现思路
本专利技术的目的是提供一种更清晰的基于电路图元素隐喻的主题演化可视化方法。本专利技术的目的是这样实现的:(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;(3)在同一时段内抽取的同一主题下的词盘就近排布;(4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于同一主题,以框宽度表示主题强度,即本时段内包含该主题的文档数,以框高度表示主题包含的词量;(5)以“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向;(6)在每个词出现的位置出现标识左侧以圆角矩形显示词的内容;(7)以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述两段词连接线,在第一段和第三段词连接线上标识词强度,即出现这个词的数量。本专利技术的有益效果在于:该方法主要能够展示主题的内容、主题的强度随时间的变化及主题与主题间的演化关系以方便用户对主题的演化过程进行分析,还可展示各时段内同一主题强度的地理分布。本专利技术有效解决了现有主题演化可视化方法中的强度表示不清晰、复杂主题关系表示不够清晰以及小强度主题易被掩盖等问题。附图说明图1为本专利技术步骤图;图2为本专利技术具体实施过程图;图3为本专利技术词盘所处的地理分布图。具体实施方式下面结合附图对本专利技术做进一步描述。一种基于电路图元素隐喻的主题演化可视化方法,其实施包括如下步骤:步骤1,数据预处理,对文本数据进行预处理,首先进行分词、去停词等操作,将文本集合处理成词库;然后采用诸如LDA等算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点等信息;步骤2,以焊盘图标隐喻主题中的词,此处可称之为“词盘”,词盘采用空心饼图形式表示,如图2中1所示,可表示在此时间段内此词所处的地理分布比例,如图3所示。步骤3,在同一时段内抽取的同一主题下的词盘就近排布,如图3所示;步骤4,以元件图标(矩形框)表示主题,此处可称之为“主题框”,主题框包围同一主题内的词盘,表示其在选定时间段内属于同一主题,以框宽度表示主题强度(本时段内包含该主题的文档数),如图2中2所示;步骤5,以“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向,如图2中3和2中4所示;步骤6,在每个词出现的位置出现标识左侧以圆角矩形显示词的内容,如图2中5所示;步骤7,以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述2段词连接线,如图2中6所示,并在第一段和第三段词连接线上标识词强度(即出现这个词的数量),如图2中7所示。包括步骤2中所述以焊盘图标隐喻主题中包括的词,词盘采用空心饼图形式表示,可表示在此时间段内此词所处的地理分布比例。包括步骤4中所述以元件图标(矩形框)表示主题,此处可称之为“主题框”,主题框包围同一主题内的词盘,表示其在选定时间段内属于同一主题,以框宽度表示主题强度(本时段内包含该主题的文档数),以框高度表示主题包含的词量。包括步骤5中所述采用“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向。包括步骤7中所述以电路图中电路连走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇。词连接走线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述2段词连接线,并在第一段和第三段词连接线上标识词强度(即出现这个词的数量)。本文档来自技高网...
一种基于电路图元素隐喻的主题演化可视化方法

【技术保护点】
一种基于电路图元素隐喻的主题演化可视化方法,其特征在于,包括如下步骤:(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;(3)在同一时段内抽取的同一主题下的词盘就近排布;(4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于同一主题,以框宽度表示主题强度,即本时段内包含该主题的文档数,以框高度表示主题包含的词量;(5)以“+”“‑”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向;(6)在每个词出现的位置出现标识左侧以圆角矩形显示词的内容;(7)以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述两段词连接线,在第一段和第三段词连接线上标识词强度,即出现这个词的数量。

【技术特征摘要】
1.一种基于电路图元素隐喻的主题演化可视化方法,其特征在于,包括如下步骤:(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;(3)在同一时段内抽取的同一主题下的词盘就近排布;(4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于...

【专利技术属性】
技术研发人员:周连科王红滨王念滨杜一何鸣宋奎勇王瑛琦
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1