本发明专利技术提供一种文本标注方法及系统,其中的方法包括:根据领域本体构建概念图谱;根据文本集合,构建文本集合的主题模型;主题模型包括主题-词汇分布;根据主题-词汇分布、所获取的每个主题中的每个词汇相对应的概念以及概念图谱中的概念,获取主题模型中的每个主题与概念图谱中的概念之间的主题-概念相关性;根据主题-概念相关性,利用文本-主题分布对文本-概念分布进行概念相关性调整,以完成文本标注,其中,文本-主题分布基于主题-词汇分布对待标注文本进行主题标注得到;文本-概念分布基于概念图谱对待标注文本进行概念标注得到。利用本发明专利技术,能够解决在文本标注时出现的漏标和误标的问题。
【技术实现步骤摘要】
本专利技术涉及文本标注
,更为具体地,涉及一种文本标注方法及系统。
技术介绍
随着移动互联网和社交网络的推广,产生了大量的用户生成文本(User Generated Content,简称UGC),由于文化背景和表述习惯的不同,人们往往会使用不同的 词语和表述方式表达类似的内容,因此传统搜索引擎中广泛使用的基于词语的倒排索引来 管理UGC内容的方法无法揭示UGC的内在相关性,从而无法对这些文本进行有效的维护、检 索和推荐,所以在语义层面理解文本的含义变得十分必要。使用自然语言处理技术(Natural Language Processing,简称NLP)可以对UGC进 行深度的理解,但是由于人类自然语言的复杂性,不可能真正做到对UGC进行深度的理解, 而且这种深度理解也往往是不必要的。事实上,如果对文本进行语义标注,构建起词到语义 概念的映射,则即使只能对UGC进行浅层分析,也能够据以判断UGC在语义概念空间上的分 布,从而为UGC的管理、搜索和推荐提供切实的基础。在文本挖掘领域,主题分析方法是一种常见的对文本进行语义标注的方法。作为 一种基于无监督学习的统计方法,对于给定的文本集合,主题分析方法通过参数能够确定 一些隐含的主题,每个主题是一些词汇的集合,每篇文本则可以表示为在多个主题上的概 率分布,和词袋模型中的单词相比,隐含主题的维度要低得多,因此可以有效地避免词一级 的噪音。 虽然主题分析方法对文本中的高频热词具有很好的分析能力,但是由于其采用的 主题模型使用指数分布的概率假设,并不适合对文本中所包含的大量长尾词进行学习,使 得主题模型形成的主题不包含长尾词,因此使用主题模型对文本进行标注时,也无法标注 出文本中的长尾词,这使得文本标注的可用性受到很大的影响。 为了解决长尾词的识别这个问题,可以在文本标注过程中引入概念图谱。概念图 谱虽然能够解决长尾词的识别问题,但是,由于概念图谱方法缺乏对资源文本的总体倾向 的理解,如果某个非核心词多次出现,就会误导系统将其所对应的概念作为文本的关键概 念从而导致误标,同时,也可能由于核心词出现的次数少,而导致漏标。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种文本标注方法及系统,采用主题模型和 概念图谱的混合标注方式,以解决在文本标注时出现的漏标和误标的问题。根据本专利技术的一个方面,提供一种文本标注方法,包括:根据领域本体构建具有概念之间的相关性的概念图谱;以及, 根据文本集合,构建文本集合的主题模型;其中,主题模型包括文本集合所对应的 主题-词汇分布; 根据主题-词汇分布、每个主题中的每个词汇相对应的概念以及概念图谱中的概 念,获取主题模型中的每个主题与概念图谱中的概念之间的主题-概念相关性,其中,每个 主题中的每个词汇相对应的概念根据概念图谱得到; 根据主题-概念相关性,利用文本-主题分布对文本-概念分布进行概念相关性 调整,以完成文本标注;其中,文本-主题分布基于主题-词汇分布对待标注文本进行主题 标注得到;文本-概念分布基于概念图谱对待标注文本进行概念标注得到。 根据本专利技术的另一个方面,提供一种文本标注系统,包括: 概念图谱构建单元,用于根据领域本体构建具有概念之间的相关性的概念图谱; 主题模型构建单元,用于根据文档集合,构建文档集合的主题模型;其中主题模型 包括文本集合所对应的主题-词汇分布; 主题-概念相关性获取单元,用于根据主题-词汇分布、每个主题中的每个词汇所 对应的概念以及概念图谱中的概念,获取主题模型中的每个主题与概念图谱中的概念之间 的主题-概念相关性,其中,每个主题中的每个词汇相对应的概念根据概念图谱得到; 文本标注单元,用于根据主题-概念相关性,利用文本-主题分布对文本-概念分 布进行概念相关性调整,以完成文本标注;其中, 文本标注单元包括: 主题标注模块,用于基于主题-词汇分布对待标注文本进行主题标注以获取文 本-主题分布; 概念标注模块,用于基于概念图谱对待标注文本进行概念标注以获取文本-概念 分布。 从上面的技术方案可知,本专利技术提供的文本标注方法及系统,根据主题-概念相 关性,利用主题模型得到的待标注文本的文本_主题分布对通过概念图谱得到的待标注文 本的文本-概念的相关性进行提升,以解决在文本标注时出现的漏标和误标的问题。 为了实现上述以及相关目的,本专利技术的一个或多个方面包括后面将详细说明并在 权利要求中特别指出的特征。下面的说明以及附图详细说明了本专利技术的某些示例性方面。 然而,这些方面指示的仅仅是可使用本专利技术的原理的各种方式中的一些方式。此外,本专利技术 旨在包括所有这些方面以及它们的等同物。【附图说明】 通过参考以下结合附图的说明及权利要求书的内容,并且随着对本专利技术的更全面 理解,本专利技术的其它目的及结果将更加明白及易于理解。在附图中: 图1为根据本专利技术实施例的文本标注方法流程示意图; 图2为根据本专利技术实施例的文本标注处理流程示意图; 图3为根据本专利技术实施例的根据Wikipedia概念和google距离公式生成的概 念-概念相关性的一个片段不意图; 图4为根据本专利技术实施例的主题和概念之间的相关性计算过程示例示意图; 图5为根据本专利技术实施例的主题和概念之间的相关性计算结果示例一示意图; 图6为根据本专利技术实施例的主题和概念之间的相关性计算结果示例二示意图; 图7为根据本专利技术实施例的获取文本-概念分布示例示意图; 图8为根据本专利技术实施例的获取文本-主题分布示例示意图; 图9为根据本专利技术实施例的文本标注调整计算过程示例示意图; 图10为根据本专利技术实施例的文本标注调整计算结果示例示意图; 图11为根据本专利技术实施例的文本标注系统逻辑结构框图。 在所有附图中相同的标号指示相似或相应的特征或功能。【具体实施方式】 在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐 述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。 针对主题模型能够给出文本的整体倾向,但是无法标注出文本中的长尾词;而概 念图谱标注能够给出概念、尤其是长尾概念的存在,但是存在漏标、误标等问题。本专利技术提 出一种同时使用主题模型和概念图谱的混合文本标注方法,能够在保持主题模型对文本的 整体倾向进行理解的优势的同时,仍保证概念图谱中的长尾词被准确地标注。 以下将结合附图对本专利技术的具体实施例进行详细描述。 为了说明本专利技术提供的文本标注方法,图1示出了根据本专利技术实施例的文本标注 流程。 如图1所示,本专利技术提供的文本标注方法包括: S110 :根据领域本体构建具有概念之间的相关性的概念图谱;以及, 根据文本集合,构建文本集合的主题模型;其中,主题模型包括文本集合所对应的 主题-词汇分布。 具体地,构建概念图谱和主题模型。其中,根据领域本体中的有名关系和无名关系 构建具有概念-概念相关性的概念图谱,构建此概念图谱是后续确定主题_概念相关性的 基础。 并且,采用主题分析方法对文本集合进行分析,构建主题模型,其中,主题模型包 括多个主题以及多个主题的主题-词汇分布。也就是说,通过使用主题分析方法(例如:LDA 算法)对文本集合进行分析,生成多个主题的主题-词汇分布。 S120 :根据主题-词汇分布、每个主题中的每个本文档来自技高网...
【技术保护点】
一种文本标注方法,包括:根据领域本体构建具有概念之间的相关性的概念图谱;以及,根据文本集合,构建文本集合的主题模型;其中,所述主题模型包括文本集合所对应的主题‑词汇分布;根据所述主题‑词汇分布、每个主题中的每个词汇相对应的概念以及所述概念图谱中的概念,获取所述主题模型中的每个主题与所述概念图谱中的概念之间的主题‑概念相关性,其中,所述每个主题中的每个词汇相对应的概念根据所述概念图谱得到;根据所述主题‑概念相关性,利用文本‑主题分布对文本‑概念分布进行概念相关性调整,以完成文本标注;其中,所述文本‑主题分布基于所述主题‑词汇分布对待标注文本进行主题标注得到;所述文本‑概念分布基于所述概念图谱对所述待标注文本进行概念标注得到。
【技术特征摘要】
【专利技术属性】
技术研发人员:王勇,张霞,赵立军,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。