改进的文本相似度分析方法、系统、介质、设备及终端技术方案

技术编号:36433846 阅读:14 留言:0更新日期:2023-01-20 22:46
本发明专利技术属于语义网络技术领域,公开了改进的文本相似度分析方法、系统、介质、设备及终端,利用中文分词技术对文本进行分词处理;根据词汇位置信息计算词汇在文本中的权重值;根据词汇在文本中的词性得到系列词汇词性权重值;利用目标权重函数对文本词汇集合T进行降维处理,得到词汇集合;求解词汇集合中的词汇在文本库中的期望与方差,根据皮尔森相关系数求解待比较文本间的文本相似度。本发明专利技术比传统的文本相似度计算方法得到的结果具有更高的准确性,更符合人工提取结果。本发明专利技术的方法粗略计算了特征词汇中不同词汇对文本思想的贡献度,计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度,为后续文本聚类提供良好的理论基础。好的理论基础。好的理论基础。

【技术实现步骤摘要】
改进的文本相似度分析方法、系统、介质、设备及终端


[0001]本专利技术属于语义网络
,尤其涉及一种改进的文本相似度分析方法、系统、介质、设备及终端。

技术介绍

[0002]常用的计算文本相似度方法主要有两种:一种是基于数理统计的方法,另外一种是基于语义分析的方法。基于数理统计的方法是根据词形和词频进行计算,而语义分析则是利用文本内部词汇的内在语义联系进行计算。向量空间模型(Vector Space Model,简称VSM)是计算文本相似度的经典方法,该方法没有考虑词汇的语义信息和词汇之间的语义联系,因此不能真实的反应文本之间的相似情况,此外VSM没有考虑词汇在文本中的语义地位和对文本中心思想表达所作出的贡献大小,所以用向量空间模型来计算文本相似度是有缺陷的。基于统计的方法简单高效,但是缺乏语义,没有考虑到文本中特征词汇中不同词汇对文本重要程度的差异问题。而基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理,另外上述两种方法会引起高维稀疏的问题以及不知特征词汇集合对文本的重要程度和贡献度。而且,上述算法没有很好地解决文本数据中存在的自然语言问题同义词和多义词,这些问题干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。为了满足上述需求,亟需设计一种新的改进的文本相似度分析方法。
[0003]通过上述分析,现有技术存在的问题及缺陷为:
[0004](1)现有计算文本相似度的方法中,向量空间模型VSM没有考虑词汇的语义信息和词汇之间的语义联系,因此不能真实的反应文本之间的相似情况。<br/>[0005](2)向量空间模型没有考虑词汇在文本中的语义地位和对文本中心思想表达所作出的贡献大小,所以用向量空间模型来计算文本相似度是有缺陷的。
[0006](3)现有基于统计的方法缺乏语义,没有考虑到文本中特征词汇中不同词汇对文本重要程度的差异问题;基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理。
[0007](4)现有方法会引起高维稀疏的问题以及不知特征词汇集合对文本的重要程度和贡献度,且没有很好地解决文本数据中存在的自然语言问题同义词和多义词,干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。

技术实现思路

[0008]为克服相关技术中存在的特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词等问题,本专利技术公开实施例提供了一种改进的文本相似度分析方法、系统、介质、设备及终端。所述技术方案如下:
[0009]本专利技术是这样实现的,一种改进的文本相似度分析方法,所述改进的文本相似度分析方法包括以下步骤:
[0010]步骤一,利用中文分词技术对文本进行分词处理;
[0011]步骤二,根据词汇位置信息,计算词汇在文本中的权重值
[0012]步骤三,根据词汇在文本中的词性得到系列词汇词性权重值;
[0013]步骤四,综合步骤一~步骤四,求解词汇集合T

中的词汇在文本库中的期望E(c
i
)与方差S(c
i
),利用目标权重函数mw(c
i
)对文本词汇集合T进行降维处理,得到词汇集合T

=(c1,c2,

,c
i


,c
z

);
[0014]步骤五,根据皮尔森相关系数求解待比较文本(W1,W2)间的文本相似度sim(g1,g2)。
[0015]在一个实施例中,所述步骤一中的利用中文分词技术对文本进行分词处理包括:
[0016](1)根据《分词词典》找到待分词句子中与词典中匹配的词,将待分词的汉字串进行完整扫描,在系统词典中进行查找匹配,遇到字典里有的词则标识出来;如果词典中不存在相关匹配,则分割出单字作为词,直到汉字串为空;
[0017](2)依据概率统计学,将待分词句子拆分为网状结构,得到n个可能组合的句子结构,将所述结构每条顺序节点依次规定为SM1M2M3M4M5E;
[0018](3)基于信息论方法,将所述网状结构每条边赋予权值,算过程如下:
[0019]根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为n
i
,n条路径词的个数集合为n
i

[0020]得min()=min(n1,n2,

,n
n
);
[0021]在最少路径中,求解每条相邻路径的权重大小;
[0022]在统计语料库中,计算每个词的信息量X(C
i
);在当前文本中计算每个词的信息量Y(C
i
);综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
);再求解路径相邻词的共现信息量X(C
i
,C
i+1
),如下式所示:
[0023][0024]式中,n(C
i
)1为C
i
在文本中的次数,n为文本语料库中关键词的总数,m为文本数量;
[0025][0026]式中,n(C
i
)1为C
i
在文本中的次数,N(C
i
)为当前文本中关键词的总数,t为含词C
i
的文本数,N为统计语料库中文本总数;
[0027]若信息量X(C
i
)越大,则词C
i
在文本语料库中出现的越频繁,则词C
i
在当前文本的贡献值越低,若信息量Y(C
i
)越大,则词C
i
在当前文本中出现的越频繁,则词C
i
在当前文本的贡献值越高,得综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
),如下式所示:
[0028][0029]同理,计算X(C
i
,C
i+1
)文本语料库中词(C
i
,C
i+1
)的共现信息量;计算Y(C
i
,C
i+1
)在当前文本中相邻词(C
i
,C
i+1
)共现的文本信息量;再求解路径相邻词的共现信息量F(C
i
,C
i+1
),计算过程如下:
[0030][0031]式中,n(C
i
,C
i+1
)1为在文本中词(C
i
,C
i+1
)的共现次数,m为文本数量,N(c,c)为文本语料库中共现词总数;
[0032][0033]式中,R(C
i
,C
i+本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进的文本相似度分析方法,其特征在于,所述改进的文本相似度分析方法包括以下步骤:步骤一,利用中文分词技术对文本进行分词处理;步骤二,根据词汇位置信息,计算词汇在文本中的权重值步骤三,根据词汇在文本中的词性得到系列词汇词性权重值;步骤四,综合步骤一~步骤四,求解词汇集合T

中的词汇在文本库中的期望E(c
i
)与方差S(c
i
),利用目标权重函数mw(c
i
)对文本词汇集合T进行降维处理,得到词汇集合T

=(c1,c2,

,c
i


,c
z

);步骤五,根据皮尔森相关系数求解待比较文本(W1,W2)间的文本相似度sim(g1,g2)。2.如权利要求1所述改进的文本相似度分析方法,其特征在于,所述步骤一中的利用中文分词技术对文本进行分词处理包括:(1)根据《分词词典》找到待分词句子中与词典中匹配的词,将待分词的汉字串进行完整扫描,在系统词典中进行查找匹配,遇到字典里有的词则标识出来;如果词典中不存在相关匹配,则分割出单字作为词,直到汉字串为空;(2)依据概率统计学,将待分词句子拆分为网状结构,得到n个可能组合的句子结构,将所述结构每条顺序节点依次规定为SM1M2M3M4M5E;(3)基于信息论方法,将所述网状结构每条边赋予权值,算过程如下:根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni,n条路径词的个数集合为n
i
;得min()=min(n1,n2,

,n
n
);在最少路径中,求解每条相邻路径的权重大小;在统计语料库中,计算每个词的信息量X(C
i
);在当前文本中计算每个词的信息量Y(C
i
);综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
);再求解路径相邻词的共现信息量X(C
i
,C
i+1
),如下式所示:式中,n(C
i
)1为C
i
在文本中的次数,n为文本语料库中关键词的总数,m为文本数量;式中,n(C
i
)1为C
i
在文本中的次数,N(C
i
)为当前文本中关键词的总数,t为含词C
i
的文本数,N为统计语料库中文本总数;若信息量X(C
i
)越大,则词C
i
在文本语料库中出现的越频繁,则词C
i
在当前文本的贡献值越低,若信息量Y(C
i
)越大,则词C
i
在当前文本中出现的越频繁,则词C
i
在当前文本的贡献值越高,得综合信息量X(C
i
)与信息量Y(C
i
)得到词C
i
的贡献值F(C
i
),如下式所示:同理,计算X(C
i
,C
i+1
)文本语料库中词(C
i
,C
i+1
)的共现信息量;计算Y(C
i
,C
i+1
)在当前文
本中相邻词(C
i
,C
i+1
)共现的文本信息量;再求解路径相邻词的共现信息量F(C
i
,C
i+1
),计算过程如下:式中,n(C
i
,C
i+1
)1为在文本中词(C
i
,C
i+1
)的共现次数,m为文本数量,N(c,c)为文本语料库中共现词总数;式中,R(C
i
,C
i+1
)为C
i
在文本中的次数,N(C
i
,C
i+1
)为当前文本中共现词的总数,r为含共现词的文本数,N为统计语料库中文本总数;若信息量X(C
i
,C
i+1
)越大,则词(C
i
,C
i+1
)在文本语料库中出现的越频繁,则词(C
i
,C
i+1
)在当前文本的贡献值越低,若信息量Y(C
i
,C
i+1
)越大,则词(C
i
,C
i+1
)在当前文本中出现的越频繁,则词(C
i
,C
i+1
)在当前文本的贡献值越高,得综合信息量X(C
i
,C
i+1
)与信息量Y(C
i
,C
i+1
)得到词(C
i
,C
i+1
)的贡献值F(C
i
,C
i+1
),如下式所示:得到每条相邻路径的权值为:w(C
i
,C
i+1
)=X(C
i
)+X(C
i+1
)

2X(C
i
,C
i+1
);(4)找到权值最大的一条路径,即为待分词句子的分词结果。3.如权利要求1所述改进的文本相似度分析方法,其特征在于,所述步骤二中的根据词汇位置信息,计算词汇在文本中的权重值包括:根据调研资料显示,特征词越在文本靠前位置,越能代表文本的中心思想,特征词在文本中出现的次数越多,越具有文本含义的代表性;通过步骤一得到词汇在文本的权重值,取前20个特征词汇,并对所述词汇进行位置权重划分;在文本中每个特征词至少出现一次,文本特征词c
(1,2)...

【专利技术属性】
技术研发人员:石珺金平艳李志鹏杨阳朝廖勇张杰
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1