当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于信息熵的单文本词项凝固度计算方法与系统技术方案

技术编号:38378112 阅读:8 留言:0更新日期:2023-08-05 17:38
本发明专利技术涉及自然语言处理技术领域,具体公开了一种基于信息熵的单文本词项凝固度计算方法与系统,包括输入说明子系统:用于输入数据,输入数据包括单文本的输入及候选词项的信息熵的生成,以及根据数据格式[词项,左侧信息熵,右侧信息熵,词频,词长]进行二维表数据集的生成,主成分分析说明子系统:用于根据相关变量生成若干线性不相关的主成分,计算主成分的综合得分获得得分数据,主成分互不相关,相关变量由信息熵、词频、词长构成,输出说明子系统:用于组合排布得分数据来进行对单文本词项凝固度表的输出,解决了传统的分词技术在分词过程中,均需要使用到两个及以上的评价指标,没有统一的指标来进行对词项的直接对比和验证的问题。证的问题。证的问题。

【技术实现步骤摘要】
一种基于信息熵的单文本词项凝固度计算方法与系统


[0001]本申请涉及自然语言处理
,具体公开了一种基于信息熵的单文本词项凝固度计算方法与系统。

技术介绍

[0002]在中文文本资料开发利用过程中,中文分词是必不可少的步骤。在中文分词过程中,对于未登录词的识别,现有技术中,针对地质专业词语识别有采用如下的分词技术:
[0003]基于互信息和词频量化字的结合,分析不同统计原理的分词特点和适用场合;
[0004]基于词内部的字串与单字串的不同结构计算了位置成词概率,但基于这个指标的指导下新词识别的精度低于70%;
[0005]分别计算词项的两个指标——凝合度和信息熵,并进行阈值判决,由此来处理无规则语料库,但为了保证准确率,需要利用多元候选词来过滤和处理结果;
[0006]使用上下文邻接和计算字的词首、词尾成词概率来过滤词语候选集,对地质专业词语识别准确率可达到81.6%;
[0007]以上方法通过不同的指标量化字符关系和词项特性。但是,均由两个或两个以上的评价指标来进行处理,提出了左右信息熵、词项长度、词频等特征,部分还需要一定程度的二次处理,没有统一的指标来综合各方面特性来进行对词项的对比和验证。
[0008]因此,专利技术人有鉴于此,提供了一种基于信息熵的单文本词项凝固度计算方法与系统,以便解决上述问题。

技术实现思路

[0009]本专利技术的目的在于解决传统的分词技术在进行分词过程中,均需要使用到两个及以上的评价指标,没有统一的指标来进行对词项的直接对比和验证的问题。
[0010]为了达到上述目的,本专利技术的基础方案提供一种基于信息熵的单文本词项凝固度计算系统,包括:
[0011]输入说明子系统:用于输入数据,输入数据包括单文本的输入及候选词项的信息熵的生成,以及根据数据格式[词项,左侧信息熵,右侧信息熵,词频,词长]进行二维表数据集的生成;
[0012]主成分分析说明子系统:用于根据相关变量生成若干线性不相关的主成分,计算主成分的综合得分获得得分数据,其中,主成分互不相关,相关变量由信息熵、词频、词长构成;
[0013]输出说明子系统:用于组合排布得分数据来进行对单文本词项凝固度表的输出。
[0014]进一步,所述输入说明子系统可根据单文本逐个统计候选词项的词频和词长,并将词频和词长分别加入候选词集。
[0015]进一步,所述主成分分析说明子系统通过正交变换将每组存在相关性的相关变量分别单独转换为一组线性不相关的主成分。
[0016]进一步,所述主成分分析说明子系统中,对于主成分综合得分的计算包括如下步骤:
[0017]步骤A1:定义计算主成分综合得分的函数,输入数据信息熵为一组相关变量;
[0018]步骤A2:将输入数据标准化,以消除量纲的影响;
[0019]步骤A3:计算相关变量之间的相关系数矩阵,计算相关系数矩阵的特征值和特征向量;
[0020]步骤A4:计算特征值的贡献率和累计贡献率,选择n个主成分分别对应代替之前的原始变量;
[0021]步骤A5:通过线性计算,即可分别得到n个主成分的综合得分。
[0022]为了达到上述目的,本专利技术的基础方案还提供了一种基于信息熵的单文本词项凝固度计算系统的计算方法,具体包括如下步骤:
[0023]步骤S10:读取单文本,读取候选词项信息熵;
[0024]步骤S20:循环遍历词项,定义所有词项的频次集为空列表,词项的长度集为空列表;
[0025]步骤S30:分别得到词频集数据和词长集数据,将词频集和词长集加入候选词集;
[0026]步骤S40:通过主成分分析的函数,带入候选词集数据计算最终得分,此时得到凝固度;
[0027]步骤S50:将最终得分添加进候选词集得到未排序的词项凝固度表;
[0028]步骤S60:将凝固度综合得分排序,得到词项凝固度表。
[0029]进一步,在步骤S10中,读取单文本信息熵的格式为二维表数据集对象,行格式为[词项,左侧信息熵,右侧信息熵]。
[0030]进一步,在步骤S20中,词频集和词长集的具体获取步骤如下:
[0031]步骤S21:循环遍历单文本,依次取出当前遍历的词项,循环遍历单文本完毕后,自动进入步骤S30;
[0032]步骤S22:获取当前词项的词频,将词频加入词频集;
[0033]步骤S23:获取当前词项的词长,将词长加入词长集,并重复S21。
[0034]本方案的原理及效果在于:
[0035]1、本专利技术提出凝固度概念,很好地量化了字符间的紧密连接程度,综合表示字符串组合的成词概率和分词优先级。
[0036]2、本专利技术通过选取左右信息熵、词长、词频,使用主成分分析子系统来综合分析,既降低了处理不同指标的耗费,也使得最终结果更容易被理解。
[0037]3、本专利技术只使用一个综合指标:凝固度,就可以摆脱设置不同指标的阈值和参数,排除了随意性和不准确性,可以为专业领域单文本分词任务提供直接参考,解决了传统的分词技术在进行分词过程中,均需要使用到两个及以上的评价指标,没有统一的指标来进行对词项的直接对比和验证的问题。
[0038]4、本专利技术可在不依赖人为工作和专业词典的条件下,很好地处理了未登录词识别的问题,能够实现快捷准确的分词。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1示出了本申请实施例提出的一种基于信息熵的单文本词项凝固度计算方法与系统的流程图。
具体实施方式
[0041]为更进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术的具体实施方式、结构、特征及其功效,详细说明如后。
[0042]一种基于信息熵的单文本词项凝固度计算方法与系统,实施例如图1所示:
[0043]本系统包括三个部分:输入说明子系统、主成分分析说明子系统和输出说明子系统。三个部分均基于信息熵的单文本词项凝固度计算方法实现。
[0044]输入说明子系统用于输入数据,输入数据包括单文本的输入及候选词项的信息熵term_list的生成,以及根据数据格式[词项,左侧信息熵,右侧信息熵,词频,词长]进行二维表数据集DataFrame的生成。
[0045]具体的,在本实施例中,单文本text以“任村”地质调查报告文本成果部分(任村报告)为例,全文约52万个字符、16万个汉字。
[0046]任村报告作为地质领域单文本量化词项的代表性数据集。候选词项的信息熵term_list是DataFrame对象,DataFrame是一个二维表数据集,每行数据格式为[word,left本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵的单文本词项凝固度计算系统,其特征在于:包括:输入说明子系统:用于输入数据,输入数据包括单文本的输入及候选词项的信息熵的生成,以及根据数据格式[词项,左侧信息熵,右侧信息熵,词频,词长]进行二维表数据集的生成;主成分分析说明子系统:用于根据相关变量生成若干线性不相关的主成分,计算主成分的综合得分获得得分数据,其中,主成分互不相关,相关变量由信息熵、词频、词长构成;输出说明子系统:用于组合排布得分数据来进行对单文本词项凝固度表的输出。2.根据权利要求1所述的一种基于信息熵的单文本词项凝固度计算系统,其特征在于,所述输入说明子系统可根据单文本逐个统计候选词项的词频和词长,并将词频和词长分别加入候选词集。3.根据权利要求2所述的一种基于信息熵的单文本词项凝固度计算系统,其特征在于,所述主成分分析说明子系统通过正交变换将每组存在相关性的相关变量分别单独转换为一组线性不相关的主成分。4.根据权利要求3所述的一种基于信息熵的单文本词项凝固度计算系统,其特征在于,所述主成分分析说明子系统中,对于主成分综合得分的计算包括如下步骤:步骤A1:定义计算主成分综合得分的函数,输入数据信息熵为一组相关变量;步骤A2:将输入数据标准化,以消除量纲的影响;步骤A3:计算相关变量之间的相关系数矩阵,计算相关系数矩阵的特征值和特征向量;步骤A4:计算特...

【专利技术属性】
技术研发人员:邓吉秋唐宇郭志勇邱蓝吴军王飞龙
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1