一种基于决策树的术语判定方法技术

技术编号:11365163 阅读:91 留言:0更新日期:2015-04-29 15:32
一种基于决策树的术语判定方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。本发明专利技术减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。

【技术实现步骤摘要】
一种基于决策树的术语判定方法
本专利技术属于数据挖掘
,尤其是一种基于决策树的术语判定方法。背景
术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,AutomaticTermExtraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定,领域术语提取效果比较差。
技术实现思路
本专利技术的目的之一是提供一种基于决策树的术语判定方法,以解决现有技术中对于领域术语提取效果比较差的问题。在一些说明性实施例中,所述基于决策树的术语判定方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。与现有技术相比,本专利技术的说明性实施例包括以下优点:减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是按照本专利技术的说明性实施例的流程图。具体实施方式在以下详细描述中,提出大量特定细节,以便于提供对本专利技术的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本专利技术。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本专利技术的理解。如图1所示,公开了一种基于决策树的术语判定方法,包括:S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;S12、确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;S13、以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;S14、将通过所述决策树判定成功的所述候选术语作为新术语。减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。以下对上述方法进行详细说明:例如:原始语料“中华人民共和国”进行切分,首先以两个语素单位进行切分,可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语,再以三个语素单位进行切分,可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语,再以4个语素单位进行切分,可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语,再以5个语素单位进行切分,可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语,再以6个语素单位进行切分,可以获得“中华人民共和”、“华人民共和国”两个候选术语,以7个语素单位进行切分,即得到候选术语“中华人民共和国”。以上共获得21个候选术语。以上的切分过程是为了便于更快的理解本专利技术的说明性实施例的示例,原始语料可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切分单位,例如最大切分单位为10个语素。在一些说明性实施例中,所述确定影响术语判定的多个特征,包括:候选术语在原始语料中的词频、候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值、候选术语的左熵和右熵两者中较大值、候选术语独立成词的概率、候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现概率、以及候选术语的领域概率。其中,对上述特征的获取过程,进行详细说明:1)、对候选术语的词频进行分析,即获取候选术语在所述原始语料中的出现次数;2)、对候选术语进行互信息的分析,得到候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值。例如:分析的候选术语C的长度为l个语素单位,以第k个语素位置,进行拆分,得到的前部为c1~ck,后部为ck+1~cl。按照如下公式进行互信息的计算:其中,c1c2…cl分别对应为候选术语C中相应位置的语素,P(c1c2…cl)为该候选术语C在原始语料中的出现概率,P(c1c2…ck)为候选术语C的前部在原始语料中的出现概率,P(ck+1ck+2…cl)为候选术语C的后部在原始语料中的出现概率。互信息的最小值的获取,例如:候选术语ABC,第一次拆分为A,和BC,第二次拆分为AB和C,两次互信息的计算依次为0.5和0.6,取0.5作为候选术语ABC的互信息。3)、对候选术语进行左右熵的分析,确定候选术语的左右熵按照如下公式进行计算:其中,LH(C)为候选术语C的左熵,L表示出现在候选术语C左侧的词汇集合,P(lC|C)为词汇l出现在候选术语C左侧的条件概率;其中,RH(C)为候选术语C的右熵,R表示出现在候选术语C右侧的词汇集合,P(Cr|C)为词汇r出现在候选术语C右侧的条件概率;LRH=max(LH(C),RH(C))其中,LRH为候选术语C的左右熵,通过对其左熵和右熵取最大值获得。4)、对候选术语的独立性进行分析,即候选术语具有的每个语素均在历史语料库中独立成词的概率按照如下公式进行计算出候选术语中的每个语素x独立成词的概率IPW(x):其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;按照如下公式计算出候选术语C独立成词的概率IPW(C):IPW(C)=IPW(c1c2…cl)=IPW(c1)·IPW(c2)·…·IPW(cl)5)、对候选术语中的每个语素出现的位置进行分析,根据内部词概率表获得候选术语不同位置的语素的出现概率;其中内部词概率表的获取方法为,在已有的术语语料库中,计算其中每个语素x出现在术语的头、中、尾的概率,从而得到一个包含所有语素的内部词概率表。公式如下:其中“*”表示和语素x组成术语的前后语素组合,times(X)表示术语X在术语语料库中的出现次数。IPC(x,pos)表示语素x出现在位置pos的概率。pos取值为{0,1,2},0表示位置在词头、1表示位置在词中、2表示位置在词尾。对于待计算的l元字符串C=c1c2…cl,根据上述所得的内部词概率表,其内部词概率IPC的计算方法为:6)、对候选术语中的每个语素或语素组合在历史语料库中的出现概率进行分析,确定候选术语的领域概率统计并计算出候选术语的每个语素或语素组合在历史语料库中的出现概率P(F_ci);再按照如下公式计算出候选术语的领域概率PC:通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行分析,作为候选术语的特征,充分进一步使得到的术语可靠性和准确性较高。在一些说明性实施例中,在所述以每个所述候选术语的多个特征值,本文档来自技高网...
一种基于决策树的术语判定方法

【技术保护点】
一种基于决策树的术语判定方法,其特征在于,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的生成顺序进行依次判定;将通过所述决策树判定成功的所述候选术语作为新术语。

【技术特征摘要】
1.一种基于决策树的术语判定方法,其特征在于,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的特征值;所述多个特征包括:所述候选术语在原始语料中的词频、所述候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值、所述候选术语的左熵和右熵两者中较大值、候选术语独立成词的概率、所述候选术语的每个语素在历史语料库中处于词头位置、词中位置和词尾位置的出现概率以及候选术语的领域概率;按照如下公式计算出候选术语中的每个语素x独立成词的概率IPW(x):其中,word(x)为语素x在历史语料库中独立成词的次数,times(x)表示语素x在历史语料库中出现的总次数;按照如下公式计算出候选术语C独立成词的概率IPW(C):IPW(C)=IPW(c1c2…cl)=IPW(c1)·IPW(c2)·…·IPW(cl)其中,c1、c2、…、cl分别为候选术语C中相应位置的语素;根据所述每个语素在所述历史语料库中处于所述词头位置、所述词中位置和所述词尾位置的出现概率得到一个包含所有语素的内部词概率表,计算如下:其中“*”表示和语素x组成术语的前后语素组合,times(X)表示所述术语X在术语语料库中的出现次数;IPC(x,pos)表示所述语素x出现在位置pos的概率;pos取值为{0,1,2},0表示位置在词头、1表示位...

【专利技术属性】
技术研发人员:江潮张芃
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1