The invention belongs to the field of data visualization analysis, in particular to a visualization method for thematic evolution based on circuit diagram element metaphor. Including: data preprocessing, data preprocess of text, word segmentation, to stop the operation, the text set a thesaurus; using LDA algorithm, the text sets the theme selected, and record the theme and corresponding words, text and time and location information; to pad icon theme words in metaphor that is, the word word disc disc, using the hollow pie chart said, that during this period the term geographical distribution proportion. This method can show the evolution of the theme of the content, the theme of the strength change with time and the theme and theme of analysis to facilitate the evolution of the theme of the user, can also display the geographical distribution of the same subject strength of each period.
【技术实现步骤摘要】
本专利技术属于数据可视化分析领域,具体涉及一种基于电路图元素隐喻的主题演化可视化方法。
技术介绍
主题演化是指主题随时间的变化过程,是当今的一个研究热点,可广泛应用于文本挖掘、舆情分析、科研热点分析等领域。其主要任务是应用主题演化算法发现文档集合中主题变化趋势。主题演化研究的结果多以概率等数学形式表现,不易理解,尤其主题间的深化关系不易被发现。于是,需要一种可视化的分析方法来展示并帮助分析主题演化过程。现有主题演化可视化方法主要采用堆叠图(Stacked Chart)、冲击图(Alluvial Diagram)等形式如Themeriver、TestFlow、NEViewer等可视化方法,其特点是能够表现出主题随时间的演化过程和主题的演化关系,但只能表现主题相对强度;堆叠图强调主题演化过程,采用连续图形表现离散量,易产生误解;另外上述各个方法对主题数量多、联系复杂的情况,尤其是小强度主题表现不够清晰,存在小强度主题易被覆盖的问题,同时对组成主题的词表现不清晰或未进行表现。对此,本专利技术提出一种新的、基于电路图隐喻的主题演化可视化方法来解决上述问题。
技术实现思路
本专利技术的目的是提供一种更清晰的基于电路图元素隐喻的主题演化可视化方法。本专利技术的目的是这样实现的:(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;(3)在同一时段内 ...
【技术保护点】
一种基于电路图元素隐喻的主题演化可视化方法,其特征在于,包括如下步骤:(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;(3)在同一时段内抽取的同一主题下的词盘就近排布;(4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于同一主题,以框宽度表示主题强度,即本时段内包含该主题的文档数,以框高度表示主题包含的词量;(5)以“+”“‑”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向;(6)在每个词出现的位置出现标识左侧以圆角矩形显示词的内容;(7)以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述两段词连接线,在第一段和第三段词连接线上标识词强度,即出现这个词的数量。
【技术特征摘要】
1.一种基于电路图元素隐喻的主题演化可视化方法,其特征在于,包括如下步骤:(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;(3)在同一时段内抽取的同一主题下的词盘就近排布;(4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于...
【专利技术属性】
技术研发人员:周连科,王红滨,王念滨,杜一,何鸣,宋奎勇,王瑛琦,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。