从评论性文本中提取评价性信息的方法和装置制造方法及图纸

技术编号:6066753 阅读:233 留言:0更新日期:2012-04-11 18:40
一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明专利技术的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。

Method and apparatus for extracting evaluative information from critical texts

Method and device for extracting evaluative information. The method comprises the following steps: preprocessing steps to collect the comment text pretreatment, in order to obtain and review the text contains at least one of the critical components by evaluation of related objects and at least one object to be evaluated in the comment text in the position; the first extraction step, the pretreated. The text of the initial matching process, in order to extract the first evaluation vector contains at least one evaluation vector set; second extraction steps, through the expansion of the at least one of the evaluated object scope to match and expansion, for lack of the first evaluation vector set and evaluation of at least one the evaluation vector object to obtain the corresponding evaluation objects, so as to obtain the second evaluation vector set. According to the method of the invention, the coverage rate of the meaningful evaluative information extracted from the commentary text can be improved, and the accuracy of the extraction process can be improved.

【技术实现步骤摘要】

本专利技术总体上说涉及信息处理的
,特别是涉及从信息源中提取特定信息的技术,具体而言,涉及从评论性文本中提取与被评价对象有关的评价性信息的方法、装置和程序产品。
技术介绍
随着信息技术的不断演进和深化,通过互联网等途径能够从各种信息源获得海量信息。例如,很多用户在获得产品或服务之前,先对已有的与该产品或服务相关的评论信息进行查看。在互联网环境下,目前存在包含用户评论性意见的许多类型的通过自然语言表述内容的网页或文档等(下文可统称为评论性文本)。采用信息提取技术可以从中提取出用户对于产品或者服务的不同属性的评论,最终以更直观方式展现给用户,为客户的选择提供参考。在这些评论性文章中,提取评论性意见主要完成以下两个任务1.提取与被评价对象相关的属性和评价词等。2.为提取出的属性和评价词匹配找到所对应的被评价对象。对于第一个任务,由于属性与对应的评价词通常在同一个句子中出现,采用就近匹配或根据短语结构进行判断的方法,就可以完成该任务。但是对于第二个任务来说,由于常见的省略主语、使用代词等语言现象,使得找到与被省略的主语所对应的被评价对象并非易事, 导致从评论性文章中准确地、高效地提取评论性信息非常困难。当前已知的信息提取或检索系统包括从互联网上收集产品评价的系统,提取产品评价词的系统,或者专门的指代消解系统。关于这方面的研究已发表多篇论文和专利,例如中国专利申请(以下称为专利文献1)申请号20058003^65. 5,专利技术人托马斯·赫斯勒;海科·劳赫;延斯·赫瓦尔德,申请人萨诺克斯·德公开股份有限公司,专利技术名称为“用于评价对象或从运营商获取信息的方法和系统”;中国专利申请(以下称为专利文献2)申请号200810M3606. 2,专利技术人朱巧明; 周国栋;孔芳;李培峰;钱龙华;李军辉;钱培德,申请人苏州大学,专利技术名称为“一种中文处理中基于语义角色信息的指代消解方法”。但是,上述专利文献1提出的方法仅仅是对于句子内的评价信息的一种提取方法,虽然可以检索出与某个特定产品有关的评价性信息,但是不能处理省略主语的评论性文本。上述专利文献2给出了一种通用的指代消解方法,但针对的是对于代词,专有名词, 无定名词,有定名词和指示性词的消解。然而在评论性文本中,对于一般作为被评价对象的主语的省略通常是完全省略,没有代词,指示性词等代替词条,所以上述专利文献2的方法并不适用于解决上述提出的第二个任务。可见,如何从信息源(例如评论性文本)中更为准确、有效地提取出与被评价对象有关的评价性信息仍然是亟待解决的问题。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这种概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于上述现有技术中存在的问题,根据本专利技术的实施例提出了一种提取与被评价对象有关的评价性信息的方法,该方法包括步骤预处理步骤,用于对所收集的评论性文本进行预处理,以便获得与该评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在所述评论性文本中的位置;第一提取步骤,用于对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和第二提取步骤,用于通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为上述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为上述的与被评价对象有关的评价性信息。根据本专利技术的另外的实施例提出了一种用于提取与被评价对象有关的评价性信息的装置,该装置包括预处理单元,其被配置成对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;第一提取单元,其被配置成对通过预处理单元预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和第二提取单元,其被配置成通过扩展至少一个被评价对象的作用域来进行扩展的匹配处理,以便为上述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为上述的与被评价对象有关的评价性 fn息ο根据本专利技术的其他实施例又涉及一种存储有机器可读取的指令代码的程序产品, 所述指令代码由机器读取并执行时,可执行如上所述的根据本专利技术实施例的提取与被评价对象有关的评价性信息的方法。根据本专利技术实施例的方法和装置能够在篇章级别,例如评论性文本中,为每个候选被评价对象划定作用范围(或称为“作用域”),并根据作用范围为提取出的属性词和评价词获取匹配的被评价对象。由此可获得的一个益处是可以更为准确地将被评价对象和与之相关的属性词和评价词等进行匹配。因为缺少被评价对象的评价向量对于使用者是没有意义的,所以根据本专利技术实施例的方法和装置可获得的又一个益处是能够使提取出的有意义的评价性信息的覆盖率得到提高,显著改善提取效率。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本专利技术的原理。为了便于示出和描述本专利技术的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本专利技术实际制造的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1是示出了根据本专利技术的实施例的提取与被评价对象有关的评价性信息的方法的流程简图;图2是示出了图1所示的实施例的提取与被评价对象有关的评价性信息的方法的一个具体示例的流程简图;图3是示出了根据本专利技术的实施例的提取与被评价对象有关的评价性信息的装置的简化框图;图4是示出了根据图3的提取与被评价对象有关的评价性信息的装置中第二提取单元的一种实现形式的简化框图;和图5示出可用于实施根据本专利技术实施例的方法和装置的计算机系统的示意性框图。具体实施例方式下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。图1示出了根据本专利技术的实施例的提取与被评价对象有关的评价性信息的方法 100的流程简图。如图所示,该方法100从步骤SllO开始。在预处理步骤S120,对所收集的评论性文本进行预处理,以便获得与该评论性文本中包含的至少一个被评价对象相关的评论性成分以及该至少一个被评价对象在该评论性文本中的位置。在第一提取步骤S130, 对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合。在第二提取步骤S140,通过扩展上述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。将该第二评价向量集合作为与被评价对象有关的评价性信息。为了更好地理解根据本专利技术的实本文档来自技高网
...

【技术保护点】
1.一种提取与被评价对象有关的评价性信息的方法,所述方法包括步骤:预处理步骤,用于对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;第一提取步骤,用于对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和第二提取步骤,用于通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为所述的与被评价对象有关的评价性信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾文杰张姝孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1