本发明专利技术实施例公开了一种领域特征词确定方法和装置。本发明专利技术实施例所提供的方案,预先通过参数确定阶段获取第一领域和第二领域的差异度阈值,而后,利用搜索引擎得到提取领域特征词的语料,从该语料中得到待确定领域特征词,分别计算待确定领域特征词在第一领域和第二领域的权值,分别根据权值进行排序,并根据权值位置的不同计算每个待确定领域特征词的差异度;将待确定领域特征词的差异度与差异度阈值进行比较,并结合权值位置信息,确定第一领域或者第二领域的领域特征词。本发明专利技术实施例所提供的方法,基于搜索引擎,利用统计的方法实现了领域特征词的自动提取,提高了获取领域特征词的效率和真实性。
【技术实现步骤摘要】
本专利技术涉及信息识别领域,尤其涉及一种领域特征词确定方法和装置。 背景
特征词是能够代表领域信息的关键词。领域词识别是构建知识库的基础。领 域词识别需要对领域进行判定,而对领域进行判断通常是通过统计该领域经常出现的一些 特征词来进行的。因此,领域特征词的获取对于领域词的识别非常重要。目前,领域特征词一般都是专家通过手工获取,局限性比较大,效率也比较低。
技术实现思路
有鉴于此,本专利技术实施例的目的是提供一种领域特征词确定方法和装置,从而快 速高效地获取领域特征词。为实现上述目的,本专利技术实施例提供了如下技术方案一种领域特征词确定方法,包括分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每 个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个 词语在第一领域中的第一权值和在第二领域的第二权值。分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词 集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两 个领域的差异度;将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行 比较,根据比较结果得到第一领域或者第二领域的领域特征词。通过如下方法预先获取的差异度阈值分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每 个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特 征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中 选取;分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按 照权值对参考领域特征词进行排序;根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领 域特征词的位置差异度;根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值。所述利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词 集合包括利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析 的页面;利用抽取程序,抽取出每个待分析页面的正文部分;对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特 征词集合。将所述差异度与预先获取的差异度阈值进行比较,从差异度阈值之上的词语中得 到领域特征词包括将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上 的待选领域特征词;结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域 特征词中确定第一领域或第二领域的领域特征词。所述权值位置信息为所述按照待确定领域特征词在第一领域或者第二领域的权 值在相应的领域进行排序后,所述待确定领域特征词所处的位置。一种领域特征词确定装置,包括第一获取单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域 词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;第一计算单元,用于分别结合第一领域和第二领域的搜索结果计算待确定领域特 征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。第二计算单元,用于分别按照所述第一权值和第二权值对所述词语进行排序,统 计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息 计算每个词语在这两个领域的差异度;差异度阈值获取单元,用于预先获取第一领域与第二领域的差异度阈值;第二获取单元,用于将所述每个词语的差异度与预先获取的第一领域与第二领域 的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。所述差异度阈值获取单元包括第一获取子单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域 词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;第一选取子单元,用于从待确定领域特征词集合中为第一领域和第二领域各选一 定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参 考领域特征词集合中选取;权值计算子单元,用于分别结合第一领域和第二领域的搜索结果计算每个参考领 域特征词的权值,并按照权值对参考领域特征词进行排序;差异度计算子单元,用于根据同一个参考领域特征词在两个领域的权值所处的不 同位置计算每个参考领域特征词的位置差异度;差异度阈值确定子单元,用于根据参考领域特征词的差异度确定第一领域和第二 领域的差异度阈值。所述第一获取单元包括第二选取子单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域 词;搜索子单元,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索 结果得到待分析的页面;抽取子单元,用于利用抽取程序,抽取出每个待分析页面的正文部分;分词子单元,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形 成待确定领域特征词集合。所述第一获取子单元包括选取模块,用于分别选取预设数量的第一领域和第二领域两个领域的领域词;搜索模块,用于利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结 果得到待分析的页面;抽取模块,用于利用抽取程序,抽取出每个待分析页面的正文部分;分词模块,用于对每个待分析页面的正文进行分词,统计分词后得到的词语,形成 待确定领域特征词集合。所述第二获取单元包括比较子单元,用于将所述差异度与预先获取的差异度阈值进行比较,选取差异度 在差异度阈值以上的待选领域特征词;第三选取子单元,结合所述待选领域特征词的在第一领域和第二领域的权值位置 信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。可见,在本专利技术实施例中,预先通过参数确定阶段获取第一领域和第二领域的差 异度阈值,而后,利用搜索引擎分别对第一领域和第二领域的领域词进行搜索,得到提取领 域特征词的语料,从该语料中得到待确定领域特征词,分别计算待确定领域特征词在第一 领域和第二领域的权值,分别根据待确定领域特征词的权值进行排序,并根据待确定领域 特征词在两个领域权值位置的不同计算每个待确定领域特征词的差异度;将待确定领域特 征词的差异度与第一领域和第二领域的差异度阈值进行比较,并结合每个待确定领域特征 词在每个领域权值位置信息,即可确定第一领域或者第二领域的领域特征词。本专利技术实施 例所提供的方法,基于搜索引擎,通过统计的方法实现了领域特征词的自动提取,提高了获 取领域特征词的效率和真实性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例所提供的方法流程图;图2为本专利技术另一实施例所提供的方法的流程图;图3为本专利技术又一实施例所提供的方法的流程图;图4为本专利技术一实施例所提供的装置的结构示意图;图5为本专利技术一实施例所提供的装置的中一单元的结构示意图;图6为本专利技术一实施例所提供的装置中又一单元的结构示意图;图7为本专利技术又一实施例所提供的装置中一单元的结构示意图。具体实施例本文档来自技高网...
【技术保护点】
1.一种领域特征词确定方法,其特征在于,包括:分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
【技术特征摘要】
【专利技术属性】
技术研发人员:于亮,张宇峰,
申请(专利权)人:北京金山软件有限公司,北京金山数字娱乐科技有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。