一种在线讨论区话题检测与跟踪方法技术

技术编号:4347510 阅读:215 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及计算机网络技术领域,一种在线讨论区话题检测与跟踪方法,包括步骤:采用HTML解析模块对讨论区帖子进行预处理及线索重构;利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;对线索数据库中的线索的内容文本进行分析;对线索数据库中的线索的用户行为进行分析;将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。本发明专利技术鉴于在线讨论区的复杂性,本发明专利技术通过结合内容和用户行为的方法较好的解决了在线讨论区话题检测与跟踪问题,具有很好的应用前景。

【技术实现步骤摘要】

本专利技术涉及计算机网络
,特别涉及在线讨论区信息检索技术。
技术介绍
随着互联网(the Internet)的飞速发展,它已经逐渐成为人们生活中一个重要的 部分。在Web2. 0时代,网络的使用者已经从以前的信息接受者转变成了信息的发布者,网 络的交互性越来越强,而在线讨论区就是目前互联网上最流行的交互性应用之一,网上各 种论坛、BBS等是在线讨论区的典型实例。通常,用户们可以在在线讨论区中畅所欲言,发表 自己的看法,因而讨论区中的信息从语义上看是处于一种各类内容混杂而无序的状态,给 信息处理和检索带来了很大的挑战一方面,传统的信息检索应用(例如传统的搜索引擎) 只能在帖子或线索的层次以基于关键词的方式上对信息进行处理,效果很差;另一方面,这 种复杂性对于讨论区管理者和相关部门的监管来说造成了巨大的困难。对讨论区信息进 行话题检测与跟踪之后,可以自动的对讨论内容进行分类规整,便于查找和编制索引,大大 方便了讨论区用户和管理人员;更进一步,在各个话题之间进一步进行挖掘的话,还可以分 析出每个话题的发展趋势以及话题之间的互动关系,进而实现对网络舆情趋势的估计和预 测。近年来,由于其广泛的需求和巨大的实用市场,在线讨论区信息检索技术已经成为一项 研究热点。 —个典型的在线讨论区的结构如下整个讨论区分为若干个版面(board),每个 版面讨论某一个领域的内容,常见的版块例如体育、音乐、计算机技术等。 一般来说,各版 面之间是相对独立的,里面的帖子、线索都是没有交叉的。每个版面由许多帖子(post) 构成, 一个用户发表一次内容就是一个帖子,它是讨论区的最小结构单位, 一般包括发帖时 间、发帖时间、标题、发帖人、内容四种属性以及所属线索的结构信息。帖子之间可以存在 回复的关系,一个帖子可能是回复之前的某一个帖子。由回复关系联系在一起的一组帖 子构成一个线索,或某些讨论区中成为主题,一个线索中的帖子共享一个标题。线索 中的第一个帖子(它不回复任何帖子)称为入口 (entry),其它的帖子称为回复。帖 子和线索构成了讨论区的物理结构,如图1(a)和(b)所示。而更高层的,不同的线索之间 则可能具有语义联系,例如,不同的帖子可能是讨论了同一个事件的各个组成部分,或是针 对同一个问题发表了不同的看法。这些由语义关系联系起来的线索构成了一个话题。相 对于讨论区的物理结构,话题结构无法直接获得而必须通过对帖子进行语义分析,因而话 题构成了讨论区的语义结构,如图1(c)所示。 在话题跟踪与监测技术研究领域,针对新闻报道的相关技术已经发展了多年并已 比较成熟。针对新闻报道的话题检测与跟踪的基本框架是对于每一个新发布的新闻,计算 它与新闻库中每一个已知的新闻的文本相似度,如果它与所有的已知新闻的相似度都小于 某预先指定的阈值e ^,则认为该新闻属于一个新的话题,否则判断它与具有最大相似度 的那个已知新闻属于同一个话题。和新闻报道这种由专业机构发布的内容相比,讨论区内 容由各类网民发表,因而识别难度大的多。具体表现在首先,新闻中所使用的语言总是正4帖子所使用的语言则往往比较口语化和随意,甚至有很多错别字; 第二,新闻中对事件的描述是完整的,所有要素都会出现,而讨论区帖子中很多内容都是隐 含的,需要结合合适的上下文才能理解;第三,新闻的内容是集中的,而讨论区内容则充斥 了很多没有信息度的闲聊和跑题。 目前为止还没有研究针对讨论区的话题检测与跟踪提出比较有效的解决算法,而 基于以上的分析和实验证明,现有的针对新闻报道的话题检测与跟踪方法无法在讨论区内 容上取得好的效果。同时,由于讨论区的内容广泛而复杂,对算法实时性的要求也很高。
技术实现思路
为了解决现有技术的问题,本专利技术目的在于提出一种适用于在线讨论区(包括论 坛、电子公告牌系统等)的话题检测与跟踪方法。 为实现上述目的,结合内容文本与用户行为的在线讨论区话题检测与跟踪方法, 其包括步骤 步骤1 :采用HTML解析模块对讨论区帖子进行预处理及线索重构; 步骤2 :利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新; 步骤3 :对线索数据库中的线索的内容文本进行分析; 步骤4 :对线索数据库中的线索的用户行为进行分析; 步骤5 :将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。 本专利技术提出了一种新型的讨论区信息检索技术,在在线讨论区上实现了自动的话 题检测与跟踪。本专利技术的方法中提出的帖子和线索的信息度测量可以在很大程度上减少在 线讨论区环境下非正式的语言带来的噪声;针对讨论区线索的特点,本专利技术的方法在进行 内容文本分析的过程中提出了词汇按位置加权的方法,使得内容文本分析可以专注在线索 中最重要的部分;除使用内容文本分析之外,本专利技术的方法还提出对讨论区的用户行为进 行分析,进一步减轻讨论区环境中非正式的语言带来的影响;本专利技术的方法提出的两层融 合判断框架可以很好的将内容文本和用户行为的分析结果融合起来,以形成对讨论区线索 的话题关系的综合判断。本方法克服了以前只能依赖人工手动的方法实现该目标的缺点, 具有广阔的应用前景。附图说明 图1 (a)、图1 (b)和图1 (c)是现有技术中讨论区物理结构和语义(话题)结构的 示意图;图l(a)原始(底层)结构,图l(b)线索结构,图l(c)话题结构; 图2是本专利技术方案的整体框架; 图3是本专利技术结合内容文本与用户行为的话题判断示意图; 图4本专利技术帖子和线索的信息度测量及特征向量更新模块的流程图。具体实施例方式下面详细给出该专利技术技术方案中所涉及的各个细节问题的说明。5 本专利技术的主要特点在于 1)使用了帖子信息度分类器过滤掉无效帖子。讨论区中充斥的大量没有信息度的 帖子会给话题检测与跟踪带来很多噪声,而信息度分类器可以在很大程度上过滤掉这类帖 子,提高系统的运行效果; 2)分析用户行为。本专利技术方法除使用传统的内容文本分析外,结合讨论区的特点 同时对讨论区用户的行为特征进行分析; 3)使用两层融合框架进行内容文本和用户行为分析的结果。针对内容文本分析和 用户行为分析的不同点,本专利技术方法使用了两层的框架对它们进行融合从而形成最终的判 断结果。 本专利技术方案实施的整体框架见附图2,本专利技术的方法具体运行的硬件和编程语言 并不限制,用任何语言编写都可以完成,为此其他工作模式不再赘述,下面仅举一实例,采 用一台具有2. 8G赫兹中央处理器和1G字节内存的奔腾4计算机并用C++语言编制了在线 讨论区话题检测与跟踪的工作程序,实现了本专利技术的方法,包括新帖子、预处理模块、帖子 和线索的信息度测量及特征向量更新模块、内容文本分析模块、用户行为分析模块、融合判 断模块,具体实施如下讨论区的帖子首先经过HTML解析器和预处理模块,以提取出帖子 的各要素和重构出线索结构;接下用帖子和线索的信息度测量及特征向量更新模块来进行 帖子和线索的信息度检查,对检查为有效的线索更新其特征向量而忽略无效的特征 向量;接下用内容文本分析模块和用户行为分析模块来对线索的内容文本和用户行为分别 进行分析;最后用融合判断模块对内容文本和用户行为的分析结果使用两层融合判断框架 进行融合,判断出线索的话题关系。本文档来自技高网
...

【技术保护点】
一种在线讨论区话题检测与跟踪方法,包括步骤:步骤1:采用HTML解析模块对讨论区帖子进行预处理及线索重构;步骤2:利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;步骤3:对线索数据库中的线索的内容文本进行分析;步骤4:对线索数据库中的线索的用户行为进行分析;步骤5:将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。

【技术特征摘要】
一种在线讨论区话题检测与跟踪方法,包括步骤步骤1采用HTML解析模块对讨论区帖子进行预处理及线索重构;步骤2利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;步骤3对线索数据库中的线索的内容文本进行分析;步骤4对线索数据库中的线索的用户行为进行分析;步骤5将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。2. 按照权利要求1所述的方法,其特征在于,讨论区帖子预处理及线索重构,包括步骤步骤11 :对新输入的讨论区帖子网页进行HTML解析;步骤12 :对HTML解析后的帖子分析其各项属性,包括发帖时间、标题、发帖人、内容和 线索结构信息;步骤13 :对帖子标题和内容进行词法分析,以分解成单词序列,删除停词; 步骤14 :根据帖子的线索结构信息重构出讨论区线索的集合。3. 按照权利要求1所述的方法,其特征在于,利用帖子和线索的信息度测量模块对新 输入的帖子和相关线索进行信息度检查,包括步骤步骤211 :对于经过预处理的新输入的每一个帖子,用帖子信息度测量器对其进行信 息度检查,输出为有效线索或无效线索;步骤212 :在帖子信息度测量的基础上,对于所有具有新帖子被输入的线索进行信息 度测量,输出为有效线索或无效线索;步骤213 :对于判定为无效的线索,因其当前不包含足够的有用信息,则将暂时忽略无 效的线索。4. 按照权利要求1所述的方法,其特征在于,对线索特征向量进行更新,包括步骤 步骤221 :对于所有具有新帖子被输入系统的线索,如果被信息度测量判定为有效,则使用...

【专利技术属性】
技术研发人员:胡卫明朱明亮吴偶
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1