一种基于大数据的国防科技热词发现方法及系统技术方案

技术编号:23984703 阅读:53 留言:0更新日期:2020-04-29 12:58
本发明专利技术公开了一种基于大数据的国防科技热词发现方法及系统,所述方法包括:将特定时间段内的新闻动态文本,输入预先建立的基于CRF的中文国防科技术语抽取模型,输出国防科技热词候选集合;通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;将国防科技热词集合输入预先建立的国防科技热词分类模型,输出国防科技热词类别信息。本发明专利技术综合运用术语抽取、热词排序、实体分类等技术,首次提出了一种面向国防科技领域的热词发现方法,结果表明,该方法可以有效地挖掘出中文动态新闻出现的国防科技热词,有助于研究人员及时跟踪把握国防科技领域最新的热点和重点知识线索。

A method and system of national defense hot words discovery based on big data

【技术实现步骤摘要】
一种基于大数据的国防科技热词发现方法及系统
本专利技术涉及自然语言处理
,尤其涉及信息抽取
,具体涉及一种基于大数据的国防科技热词发现方法及系统。
技术介绍
传统的术语抽取方法大体上可以概况为三类:(1)基于规则的方法。主要基于一些语言学知识归纳总结出术语的匹配规则模式,如FASTR系统、Terms系统等,该方法的优点是实现起来简单而且识别的准确率较高,但是术语的匹配规则需要人工归纳总结,费时费力,而且很容易存在规则覆盖不全造成漏识问题;(2)基于统计学的方法。一种是无监督的统计方法,完全依靠词频、似然比、互信息、信息熵等统计量进行计算从而过滤出满足规定阈值的术语,该方法的的缺点是对统计语料的规模和质量要求较高,而且对低频和高频术语的领域性识别效果不好。另一种是有监督的统计机器学习方法,该方法是利用已标注的语料通过机器学习的方法训练术语抽取模型,常见的模型包括隐马尔科夫模型、条件随机场模型等,该方法总体识别效果优于无监督的方法,但是依赖于大量的语料标注,对标注的质量要求较高。(3)规则和统计相结合的方法,将两者结合起来,希望达到取长补短的效果。条件随机场(CRF)是一种基于统计的序列标注识别模型,由JohnLaferty等人在2001年首次提出。CRF模型的优点是较好地解决了最大熵马尔科夫模型和其他“生成”模型所存在的标注偏置问题,同事它具有表达元素长距离依赖性和交叠性特征的能力,是目前较为主流的术语抽取工具。随着国防科技信息的大规模快速增长,各种特定应用、特定群体下涉及到的新概念、新技术、新装备等词条不断被创造出来。快速、全面、有效地发现和识别国防科技信息中的这些热度较高的词条,有助于研究人员及时跟踪把握当前国防科技领域的最新的热点和重点知识线索,为国防科技领域的知识挖掘提供有力支撑。国防科技热词关注的是领域相关的、有一定意义的名词性短语,而术语(terminology)是指在特定科学领域中使用的、相对固定的词或短语,它可以用来正确标记各个专门领域中的事物、现象、特性、关系和过程,是科学研究和知识交流的有力工具。可以看出国防科技热词和国防科技术语有着极大的交叉范畴,因此可以借助术语抽取的手段从海量国防科技信息中识别出研究人员关注的重点知识。但是,国防科技热词有着自己的领域特性,将传统的术语抽取方法应用到国防科技热词候选集的识别上存在着许多障碍和困难。目前较为主流的CRF模型用于国防科技术语识别需要投入大量的人力和时间成本用于标注训练语料,而且针对国防科技术语的特性,模型利用哪些特征能有效识别国防科技术语也行亟待研究解决的问题。
技术实现思路
本专利技术的目的在于克服传统术语抽取方法无法直接有效适用于国防科技术语识别的问题,同时面向快速把握国防科技领域重点热点知识的需求,综合运用改进术语抽取、热词排序、实体分类等技术,提出了一种基于大数据的国防科技热词发现方法。为实现上述目的,本专利技术提出了一种基于大数据的国防科技热词发现方法,所述方法包括:将特定时间段内的新闻动态文本,输入预先建立的基于CRF的中文国防科技术语抽取模型,输出国防科技热词候选集合;通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;将国防科技热词集合输入预先建立的国防科技热词分类模型,输出国防科技热词类别信息。作为上述方法的一种改进,所述方法还包括:对基于CRF的中文国防科技术语抽取模型进行训练的步骤,具体包括:以中文国防科技词表为种子术语,以种子术语为检索词在国防科技动态新闻库检索得到包含种子术语的句子,通过这些语句构建国防科技术语语料库;对国防科技术语语料库中的句子进行预处理;对国防科技术语语料库中的句子中按照BIO标记法进行序列标注,形成国防科技术语抽取模型的训练样本;其中,B表示一个术语的开始词,I表示术语除开始词以外的其他词汇,O表示其余的非术语词;B和I标注的是属于已有的国防科技词表的词,O表示不属于已有的国防科技词表的词;提取每个训练样本的国防科技术语的特征,作为所述中文国防科技术语抽取模型的输入,以序列标注为期望的模型输出,训练中文国防科技术语抽取模型。作为上述方法的一种改进,所述对语料库中的句子进行预处理,具体包括:导入预先定义的领域用户字典,所述用户字典包括国防科技词表、国防科技相关维基词条和国防科技领域文献关键词;使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理。作为上述方法的一种改进,所述国防科技术语的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在国防科技词表中出现。作为上述方法的一种改进,所述通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;具体包括:将热词排名模拟成一个自然冷却的过程,利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程,即:当前时期词频=历史词频*exp(-(冷却系数)*时间差),定义冷却系数为:其中,w为一条术语;计算国防科技热词候选集合中的每个术语的冷却系数,按照降序排列根据冷却系数对国防科技热词候选集合中的术语进行热度排序;取排序后的前N个术语或者冷切系数大于某个阈值的所有术语,组成国防科技热词集合。作为上述方法的一种改进,所述方法还包括:所述基于混合神经网络的国防科技热词分类模型包括:三个并行的神经网络、串联单元和softmax函数;所述三个并行的神经网络包括:上文多层感知器、递归神经网络和下文多层感知器,用于对上文中的词、当前词和下文中的词分别进行向量表示;所述串联单元,用于将上述的上文、热词本身、下文的向量化表示进行串联;所述softmax函数,用于计算在各个实体类别的概率分布,得到该词的实体类别预测。作为上述方法的一种改进,所述方法还包括:基于混合神经网络的国防科技热词分类模型的训练步骤,具体包括:利用国防科技词表及其类别信息,在国防科技动态新闻库检索并自动标注,形成训练语料库;对训练语料库的每个语料进行分词预处理;通过词嵌入向量词典,将上文中的词、当前词和下文中的词分别表示为向量[c-s...c-1]、[w1...wn]和[c1...cs];其中s表示窗口大小,n表示热词的长度;将向量[c-s...c-1]、[w1...wn]和[c1...cs]分别输入多层感知器、递归神经网络、多层感知器进行特征学习,从而获取上文向量化表示、热词本身向量化表示和下文的向量化表示;将上述的上文向量化表示、热词本身向量化表示和下文向量化表示通过串联单元进行串联,输入softmax函数,输出各个实体本文档来自技高网
...

【技术保护点】
1.一种基于大数据的国防科技热词发现方法,所述方法包括:/n将特定时间段内的新闻动态文本,输入预先建立的基于CRF的中文国防科技术语抽取模型,输出国防科技热词候选集合;/n通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;/n将国防科技热词集合输入预先建立的国防科技热词分类模型,输出国防科技热词类别信息。/n

【技术特征摘要】
1.一种基于大数据的国防科技热词发现方法,所述方法包括:
将特定时间段内的新闻动态文本,输入预先建立的基于CRF的中文国防科技术语抽取模型,输出国防科技热词候选集合;
通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;
将国防科技热词集合输入预先建立的国防科技热词分类模型,输出国防科技热词类别信息。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对基于CRF的中文国防科技术语抽取模型进行训练的步骤,具体包括:
以中文国防科技词表为种子术语,以种子术语为检索词在国防科技动态新闻库检索得到包含种子术语的句子,通过这些语句构建国防科技术语语料库;
对国防科技术语语料库中的句子进行预处理;
对国防科技术语语料库中的句子中按照BIO标记法进行序列标注,形成国防科技术语抽取模型的训练样本;其中,B表示一个术语的开始词,I表示术语除开始词以外的其他词汇,O表示其余的非术语词;B和I标注的是属于已有的国防科技词表的词,O表示不属于已有的国防科技词表的词;
提取每个训练样本的国防科技术语的特征,作为所述中文国防科技术语抽取模型的输入,以序列标注为期望的模型输出,训练中文国防科技术语抽取模型。


3.根据权利要求2所述的方法,其特征在于,所述对语料库中的句子进行预处理,具体包括:
导入预先定义的领域用户字典,所述用户字典包括国防科技词表、国防科技相关维基词条和国防科技领域文献关键词;
使用ICTCLAS工具进行分词及词性标注;分词时基于用户字典将专有名词或名词短语当作一个词语,进行分词处理;其余词语按照ICTCLAS的默认规则,进行通用的分词处理。


4.根据权利要求3所述的方法,其特征在于,所述国防科技术语的特征包括:当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在国防科技词表中出现。


5.根据权利要求1所述的方法,其特征在于,所述通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序,输出国防科技热词集合;具体包括:
将热词排名模拟成一个自然冷却的过程,利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程,即:
当前时期词频=历史词频*exp(-(冷却系数)*时间差),
定义冷却系数为:



其中,w为一条术语;
计算国防科技热词候选集合中的每个术语的冷却系数,按照降序排列根据冷却系数对国防科技热词候选集合中的术语进行热度排序;

【专利技术属性】
技术研发人员:田昌海罗威赵超阳谭玉珊罗准辰武帅毛彬叶宇铭宋宇
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1