本发明专利技术涉及一种在文本中确定语义关键词的方法和装置。该方法包括:在网络资源中进行挖掘,获得词或词组与词或词组作为语义关键词的概率的二元组集合;在文本中抽取样本集合,基于所获得的二元组集合在样本集合中获取正样本集合;将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较,根据比较的相似度结果来获得负样本集合;从样本集合去除正样本集合后的集合中再去除负样本集合来获得未标注样本集合;基于正样本集合、负样本集合和未标注样本集合,利用分类算法来迭代训练语义关键词识别模型,基于语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。
【技术实现步骤摘要】
本专利技术涉及信息处理领域,更具体地涉及一种在文本中确定语义关键词的方法和 装置。
技术介绍
随着文本信息快速增长,如何从海量、非结构化的文本内容中挖掘出能够表示文 本语义信息的语义关键词是智能信息处理领域亟待解决的问题之一,利用文本的语义关键 词能够更有效地进行文本信息的表示、索引、共享和检索,同时支持多种应用,如基于内容 的广告词推荐系统、问答系统、查询词的精简、扩展系统以及辅助话题追踪系统等等。 因此,需要一种能够在文本中确定语义关键词的方法和装置。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理 解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关 键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。 本专利技术的一个主要目的在于,提供一种在文本中确定语义关键词的方法,包括:在 网络资源中进行挖掘,获得词或词组与所述词或词组作为语义关键词的概率的二元组集 合;在所述文本中抽取样本集合,基于所获得的所述二元组集合在所述样本集合中获取正 样本集合;将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集 合中的正样本进行比较,根据比较的相似度结果来获得负样本集合;从所述样本集合去除 所述正样本集合后的集合中再去除所述负样本集合来获得未标注样本集合;以及基于所述 正样本集合、所述负样本集合和所述未标注样本集合,利用分类算法来迭代训练语义关键 词识别模型,基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集 合。 根据本专利技术的一个方面,提供了一种在文本中确定语义关键词的装置,包括:二元 组集合挖掘单元,被配置为在网络资源中进行挖掘,获得词或词组与所述词或词组作为语 义关键词的概率的二元组集合;正样本集合构建单元,被配置为在所述文本中抽取样本集 合,基于所获得的所述二元组集合在所述样本集合中获取正样本集合;负样本集合构建单 元,被配置为将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本 集合中的正样本进行比较,根据比较的相似度结果来获得负样本集合;未标注样本集合构 建单元,被配置为从所述样本集合去除所述正样本集合后的集合中再去除负样本集合来获 得未标注样本集合;以及语义关键词确定单元,被配置为基于所述正样本集合、所述负样本 集合和所述未标注样本集合,利用分类算法来迭代训练语义关键词识别模型,基于所述语 义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。 另外,本专利技术的实施例还提供了用于实现上述方法的计算机程序。 此外,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述方法的计算机程序代码。 通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优 点将更加明显。【附图说明】 参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其 它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。 图1示出了根据本专利技术的一个实施例的在文本中确定语义关键词的方法的流程 图; 图2是示出图1中的步骤S104的一种示例性过程的流程图; 图3是示出图1中的步骤S106的一种示例性过程的流程图; 图4是示出图1中的步骤S106'的另一种示例性过程的流程图; 图5是示出图1中的步骤SllO的一种示例性过程的流程图; 图6是示出根据本专利技术的一个实施例的在文本中确定语义关键词的装置600的示 例性配置的框图; 图7是示出图6中的正样本集合构建单元604的一种示例性配置的框图; 图8是示出图6中的负样本集合构建单元606的一种示例性配置的框图; 图9是示出图6中的负样本集合构建单元606'的另一种示例性配置的框图; 图10是示出图6中的语义关键词确定单元610的一种示例性配置的框图;以及 图11是示出可以用于实施本专利技术的在文本中确定语义关键词的装置和方法的计 算设备的示例性结构图。【具体实施方式】 下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知 的部件和处理的表示和描述。 本专利技术提出一种基于机器学习的语义关键词挖掘方法,首先从网络资源(互联网 网页、搜索引擎查询日志等)中挖掘关键词知识库,然后根据该知识库和给定文本构建训 练样本集合,最后通过迭代训练获得语义关键词识别模型,并利用该模型从未标注样本中 识别语义关键词。 下面结合附图详细说明根据本专利技术的一个实施例的在文本中确定语义关键词的 方法。 图1示出了根据本专利技术的一个实施例的在文本中确定语义关键词的流程图。 首先,在步骤S102中,在网络资源中进行挖掘,获得词或词组与该词或词组作为 语义关键词的概率的二元组集合。 其中,在网络资源中进行挖掘可以包括基于互联网网页的语义关键词挖掘和基于 查询日志的语义关键词挖掘。下面分别详细说明这两种语义关键词挖掘方法。 (1)基于互联网网页的语义关键词挖掘方法 首先从web上获取网页集合C,在实际操作中可以选择例如Wikipedia(维基百 科)作为网页集合C。接下来对网页集合中的网页进行字符归一化,包括繁简体转换、数字 归一化等等。然后从网页集合C中挖掘出锚文本,并过滤掉是链接和停止词的锚文本,得到 锚文本集合A,锚文本集合中的元素是词或者词组。由于锚文本往往为重要程度较高的词 或词组,所以本专利技术假设可以利用互联网网页估计词或词组作为锚文本的概率来近似得到 该词或词组作为语义关键词的概率。对于每个锚文本a e A,统计该词或词组在网页集合C 中作为锚文本出现的次数A,以及该词或词组在网页集合C中作为普通文本出现的次数f2, 通过下面的公式(1)计算该词或词组可能为语义关键词的概率P (a)。( 1 ) 在一个示例中,也可以利用搜索引擎搜索词或词组a,将搜索到a的总次数作为上 式中的fi+f 2。 通过以上步骤,可以获得二元组<a,p (a) >的集合,其中a为词或词组,p (a)为a可 能为语义关键词的概率。 (2)基于查询日志的语义关键词挖掘方法 首先利用搜索引擎的查询日志,对查询日志中的查询词进行字符归一化,包括繁 简体转换、数字归一化等等,然后从查询日志中滤掉是链接和停止词,构建查询日志中出现 的词的集合Q。由于查询词往往为重要程度较高的词或词组,所以本专利技术假设可以利用查询 日志估计查询词作为语义关键词的概率。遍历Q,统计出Q中词或词组q作为查询词在查询 日志中出现的次数fi,然后统计查询日志中所有词或词组出现的次数的总和,其 中t为查询日志中去除重复词之后的词或词组的总数。最后,通过下面的公式(2)计算该 词或词组可能为语义关键词的概率P (q)。( 2 ) 通过以上步骤,可以获得如下二元组<q,p (q) >的集合,其中q为词或词组,p (q)为 q可能为语义关键词的概率。 本领域技术人员本文档来自技高网...
【技术保护点】
一种在文本中确定语义关键词的方法,包括:在网络资源中进行挖掘,获得词或词组与所述词或词组作为语义关键词的概率的二元组集合;在所述文本中抽取样本集合,基于所获得的所述二元组集合在所述样本集合中获取正样本集合;将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较,根据比较的相似度结果来获得负样本集合;从所述样本集合去除所述正样本集合后的集合中再去除所述负样本集合来获得未标注样本集合;以及基于所述正样本集合、所述负样本集合和所述未标注样本集合,利用分类算法来迭代训练语义关键词识别模型,基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。
【技术特征摘要】
【专利技术属性】
技术研发人员:缪庆亮,孟遥,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。