文本标注方法及系统技术方案

技术编号：11687010 阅读：97 留言：0更新日期：2015-07-06 19:41

本发明专利技术提供一种文本标注方法及系统，其中的方法包括：根据领域本体构建概念图谱；根据文本集合，构建文本集合的主题模型；主题模型包括主题-词汇分布；根据主题-词汇分布、所获取的每个主题中的每个词汇相对应的概念以及概念图谱中的概念，获取主题模型中的每个主题与概念图谱中的概念之间的主题-概念相关性；根据主题-概念相关性，利用文本-主题分布对文本-概念分布进行概念相关性调整，以完成文本标注，其中，文本-主题分布基于主题-词汇分布对待标注文本进行主题标注得到；文本-概念分布基于概念图谱对待标注文本进行概念标注得到。利用本发明专利技术，能够解决在文本标注时出现的漏标和误标的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本标注
，更为具体地，涉及一种文本标注方法及系统。
技术介绍
随着移动互联网和社交网络的推广，产生了大量的用户生成文本（User Generated Content，简称UGC)，由于文化背景和表述习惯的不同，人们往往会使用不同的词语和表述方式表达类似的内容，因此传统搜索引擎中广泛使用的基于词语的倒排索引来管理UGC内容的方法无法揭示UGC的内在相关性，从而无法对这些文本进行有效的维护、检索和推荐，所以在语义层面理解文本的含义变得十分必要。使用自然语言处理技术（Natural Language Processing，简称NLP)可以对UGC进行深度的理解，但是由于人类自然语言的复杂性，不可能真正做到对UGC进行深度的理解，而且这种深度理解也往往是不必要的。事实上，如果对文本进行语义标注，构建起词到语义概念的映射，则即使只能对UGC进行浅层分析，也能够据以判断UGC在语义概念空间上的分布，从而为UGC的管理、搜索和推荐提供切实的基础。在文本挖掘领域，主题分析方法是一种常见的对文本进行语义标注的方法。作为一种基于无监督学习的统计方法，对于给定的文本集合，主题分析方法通过参数能够确定一些隐含的主题，每个主题是一些词汇的集合，每篇文本则可以表示为在多个主题上的概率分布，和词袋模型中的单词相比，隐含主题的维度要低得多，因此可以有效地避免词一级的噪音。虽然主题分析方法对文本中的高频热词具有很好的分析能力，但是由于其采用的主题模型使用指数分布的概率假设，并不适合对文本中所包含的大量长尾词进行学习，使得主题模...
文本标注方法及系统

【技术保护点】
一种文本标注方法，包括：根据领域本体构建具有概念之间的相关性的概念图谱；以及，根据文本集合，构建文本集合的主题模型；其中，所述主题模型包括文本集合所对应的主题‑词汇分布；根据所述主题‑词汇分布、每个主题中的每个词汇相对应的概念以及所述概念图谱中的概念，获取所述主题模型中的每个主题与所述概念图谱中的概念之间的主题‑概念相关性，其中，所述每个主题中的每个词汇相对应的概念根据所述概念图谱得到；根据所述主题‑概念相关性，利用文本‑主题分布对文本‑概念分布进行概念相关性调整，以完成文本标注；其中，所述文本‑主题分布基于所述主题‑词汇分布对待标注文本进行主题标注得到；所述文本‑概念分布基于所述概念图谱对所述待标注文本进行概念标注得到。

【技术特征摘要】

【专利技术属性】
技术研发人员：王勇，张霞，赵立军，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人