一种基于信息熵的单文本词项凝固度计算方法与系统技术方案

技术编号：38378112 阅读：8 留言：0更新日期：2023-08-05 17:38

本发明专利技术涉及自然语言处理技术领域，具体公开了一种基于信息熵的单文本词项凝固度计算方法与系统，包括输入说明子系统：用于输入数据，输入数据包括单文本的输入及候选词项的信息熵的生成，以及根据数据格式[词项，左侧信息熵，右侧信息熵，词频，词长]进行二维表数据集的生成，主成分分析说明子系统：用于根据相关变量生成若干线性不相关的主成分，计算主成分的综合得分获得得分数据，主成分互不相关，相关变量由信息熵、词频、词长构成，输出说明子系统：用于组合排布得分数据来进行对单文本词项凝固度表的输出，解决了传统的分词技术在分词过程中，均需要使用到两个及以上的评价指标，没有统一的指标来进行对词项的直接对比和验证的问题。证的问题。证的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于信息熵的单文本词项凝固度计算方法与系统

[0001]本申请涉及自然语言处理
，具体公开了一种基于信息熵的单文本词项凝固度计算方法与系统。

技术介绍

[0002]在中文文本资料开发利用过程中，中文分词是必不可少的步骤。在中文分词过程中，对于未登录词的识别，现有技术中，针对地质专业词语识别有采用如下的分词技术：
[0003]基于互信息和词频量化字的结合，分析不同统计原理的分词特点和适用场合；
[0004]基于词内部的字串与单字串的不同结构计算了位置成词概率，但基于这个指标的指导下新词识别的精度低于70％；
[0005]分别计算词项的两个指标——凝合度和信息熵，并进行阈值判决，由此来处理无规则语料库，但为了保证准确率，需要利用多元候选词来过滤和处理结果；
[0006]使用上下文邻接和计算字的词首、词尾成词概率来过滤词语候选集，对地质专业词语识别准确率可达到81.6％；
[0007]以上方法通过不同的指标量化字符关系和词项特性。但是，均由两个或两个以上的评价指标来进行处理，提出了左右信息熵、词项长度、词频等特征，部分还需要一定程度的二次处理，没有统一的指标来综合各方面特性来进行对词项的对比和验证。
[0008]因此，专利技术人有鉴于此，提供了一种基于信息熵的单文本词项凝固度计算方法与系统，以便解决上述问题。

技术实现思路

[0009]本专利技术的目的在于解决传统的分词技术在进行分词过程中，均需要使用到两个及以上的评价指标，没有统一的指标来进行对词项...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵的单文本词项凝固度计算系统，其特征在于：包括：输入说明子系统：用于输入数据，输入数据包括单文本的输入及候选词项的信息熵的生成，以及根据数据格式[词项，左侧信息熵，右侧信息熵，词频，词长]进行二维表数据集的生成；主成分分析说明子系统：用于根据相关变量生成若干线性不相关的主成分，计算主成分的综合得分获得得分数据，其中，主成分互不相关，相关变量由信息熵、词频、词长构成；输出说明子系统：用于组合排布得分数据来进行对单文本词项凝固度表的输出。2.根据权利要求1所述的一种基于信息熵的单文本词项凝固度计算系统，其特征在于，所述输入说明子系统可根据单文本逐个统计候选词项的词频和词长，并将词频和词长分别加入候选词集。3.根据权利要求2所述的一种基于信息熵的单文本词项凝固度计算系统，其特征在于，所述主成分分析说明子系统通过正交变换将每组存在相关性的相关变量分别单独转换为一组线性不相关的主成分。4.根据权利要求3所述的一种基于信息熵的单文本词项凝固度计算系统，其特征在于，所述主成分分析说明子系统中，对于主成分综合得分的计算包括如下步骤：步骤A1：定义计算主成分综合得分的函数，输入数据信息熵为一组相关变量；步骤A2：将输入数据标准化，以消除量纲的影响；步骤A3：计算相关变量之间的相关系数矩阵，计算相关系数矩阵的特征值和特征向量；步骤A4：计算特...

【专利技术属性】
技术研发人员：邓吉秋，唐宇，郭志勇，邱蓝，吴军，王飞龙，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人