当前位置: 首页 > 专利查询>苏州大学专利>正文

一种句子相似度计算方法和系统技术方案

技术编号:15639269 阅读:182 留言:0更新日期:2017-06-15 22:28
本发明专利技术涉及一种句子相似度计算方法和系统,使用结构化特征来表示句子的相似度。本发明专利技术在浅层句法树的基础上,通过适当修改获得适合句子相似度计算的结构化特征,与平面特征相结合,进行句子相似度计算。

【技术实现步骤摘要】
一种句子相似度计算方法和系统
本专利技术涉及自然语言处理领域,尤其涉及一种句子相似度计算方法和系统。
技术介绍
相似度计算是自然语言处理的基础工作。目前句子相似度计算方法主要有4类,分别是基于词重叠的方法、基于语料库统计的方法、基于语言学的方法和混合方法。基于词重叠的方法是用一组通过两个句子所共有的一些词汇量来计算句子的相似度的度量方法。Jacob等[4]提出Jaccard相似系数法,该方法计算两个句子中词语交集与两句子中词语并集的比值来计算句子的相似度。Metzler等[5]使用逆文档频率(IDF)作为两个句子中均出现的词语的权重,改进计算结果。Banerjee等[6]基于短语的长度和它们的使用频率呈Zipfian分布的特点来设计基于短语的句子相似度计算方法。基于语料库的方法将句子对中出现的词语集合用来作为特征集,将基于语料库的向量的余弦夹角值作为相似度。Landauer等[7]通过分析一个大型的自然语言语料库来统计关键词的TF-IDF值形成句子语义向量,用向量的余弦夹角来计算句子语义相似度。Lund等[8]统计词汇之间的共现性得到高维向量空间来计算句子或短文档相似度。基于语言学的方法利用词汇间的语义关系及其语法成分来确定句子的相似度。Kashyap等[9]基于词语语义相似度度量句子间的相似度,考虑单词具有不同的区分能力来进行句子向量的相似度计算方法。Malik等[10]将组成句子对的词之间的相似度的总和的最大值被句子长度归一化所得值作为句子相似度值。混合方法是基于以上方法的混合方法。Chukfong等[11-14]基于以上多种方法实现句子相似度计算。现在基于结构化表示的句子相似度计算工作比较少,Aliaksei[15]提出了一种基于简单结构化表示的计算方法。现有句子相似度计算专利:一种基于语义的相似度计算方法和装置:此专利技术提供了一种基于语义的相似度计算方法和装置,其中方法包括:获取待比较的句子S1和S2;分别对所述S1和S2进行分词;对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述;计算经步骤C处理后的S1和S2之间的相似度Sim(S1,S2)。本专利技术通过将句子中存在语义映射的词语映射到归一化的表述,并将其融入相似度的计算,从而在语义上体现句子之间的相似度而不仅仅是字面上的相似程度,提高了计算句子之间相似度的准确性。句子相似度计算方法及装置:此专利技术提供一种准确度高的句子相似度计算方法及装置。该句子相似度计算方法,包括:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存词仅属于第二句子;根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G总,其中,G总≥0,并且所有第一孤存词与所有第二孤存词之间的相似程度越高,G总数值越大;根据公式计算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,G总表示第一句子对应的第一句向量,G总表示第二句子对应的第二句向量。一种句子相似度的计算方法及系统:此专利技术提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的两个句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将两个句子中分词的贡献值相加,得到句子之间的相似度。现存的大多数句子相似度计算方法使用大量平面相似性特征来表示一对句子的相似程度。仅使用平面特征向量代表句子对相似度的问题是其表征性较弱。最新的一些相似度计算方法,依赖于词的搭配和从大数据中获得的知识(维基百科等)来进行相似度计算,不考虑句子句法等结构化信息。假设给定两个句子S1和S2,这些方法一般会做如下处理:第一步,S1中的每个单词将会与在S2中与它相似度最高的单词配对。第二步,所有的配对词间的相似度累加,并通过S1的句长对相似度进行规范化处理,进而得到句子S1与S2的相似度。现分析一对句子S1:TigershitlionsS2:Lionshittigers。通过上述提到的方法,S1中的每个单词会在S2中找到相似度极高的单词(在本例中即为相同的单词)配对,从而相似度计算结果会认为则两句句子含义相同。如图1所示,分析S1、S2的依存关系树得出它们的施事者和受事者颠倒。虽然两句句子中出现的单词相同,但是通过分析其依存关系树,可以得出它们的含义并不同。句法结构等结构化信息是自然语言处理应用里非常重要的信息。但是,如何在各种任务中利用结构化信息却是普遍存在的问题。在使用平面特征向量表示结构化特征时,当结构化特征转化为平面特征时,可能会丢失部分有效信息。有鉴于上述的缺陷,本设计人,积极加以研究创新,在基于简单结构化表示的计算方法基础上,提出一种新的结构化表示方法,用于句子相似度计算,以体现句子语法、语义、依存关系。术语解释:皮尔逊相关系数(PearsonCorrelationCoefficient):用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。支持向量回归模型(SupportVectorRegression,简称SVR):主要是通过升维后,在高维空间中构造线性决策函数来实现线性回归,用e不敏感函数时,其基础主要是e不敏感函数和核函数算法。若将拟合的数学模型表达多维空间的某一曲线,则根据e不敏感函数所得的结果,就是包括该曲线和训练点的“e管道”。在所有样本点中,只有分布在“管壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”。为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项。此法诚然有效,但由此增加的可调参数未免增加了过拟合的风险。支持向量回归算法采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”,即能做非线性回归。与此同时,引进核函数达到了“升维”的目的,而增加的可调参数是过拟合依然能控制。核方法(KernelMethods):隐含着一个从低维空间到高维空间的映射,而这个映射可以把低维空间中线性不可分的两类点变成线性可分的。用于支持向量机。树核方法(TreeKernelMethods):通过直接计算两个实体关系对象(即句法树)的相同子树的个数来比较相似度。命名实体识别(NamedEntityRecognition,简称NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。WordNet:是由普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。树:树状图是一本文档来自技高网...
一种句子相似度计算方法和系统

【技术保护点】
一种句子相似度计算方法,其特征在于,包括步骤:S10、对句子对训练文本和句子对测试文本中所有句子调用词性标注、句法分析、命名实体识别、WordNet识别工具分别进行词性标注、句法分析、命名实体识别、WordNet识别获得词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本和词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本,其中,所述句子对训练文本和句子对测试文本为每行含有两句需要计算相似度的句子的文本;S20、基于词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本获得浅层句法树训练文本,基于词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本获得浅层句法树测试文本;S30、基于句子对训练文本对每行一对句子获得多个平面特征,得到平面特征训练文本,将平面特征训练文本,浅层句法树训练文本与句子对人工评分训练文本结合得到浅层句法树特征训练文本,基于句子对测试文本对每行一对句子获得多个平面特征,得到平面特征测试文本,将平面特征测试文本与浅层句法树测试文本结合得到浅层句法树特征测试文本;S40、使用SVR模型基于浅层句法树特征训练文本进行训练,得到训练模型,由训练模型和浅层句法树特征测试文本获得相似度计算结果文本。...

【技术特征摘要】
1.一种句子相似度计算方法,其特征在于,包括步骤:S10、对句子对训练文本和句子对测试文本中所有句子调用词性标注、句法分析、命名实体识别、WordNet识别工具分别进行词性标注、句法分析、命名实体识别、WordNet识别获得词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本和词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本,其中,所述句子对训练文本和句子对测试文本为每行含有两句需要计算相似度的句子的文本;S20、基于词性标注训练文本、短语训练文本、命名实体训练文本、WordNet训练文本获得浅层句法树训练文本,基于词性标注测试文本、短语测试文本、命名实体测试文本、WordNet测试文本获得浅层句法树测试文本;S30、基于句子对训练文本对每行一对句子获得多个平面特征,得到平面特征训练文本,将平面特征训练文本,浅层句法树训练文本与句子对人工评分训练文本结合得到浅层句法树特征训练文本,基于句子对测试文本对每行一对句子获得多个平面特征,得到平面特征测试文本,将平面特征测试文本与浅层句法树测试文本结合得到浅层句法树特征测试文本;S40、使用SVR模型基于浅层句法树特征训练文本进行训练,得到训练模型,由训练模型和浅层句法树特征测试文本获得相似度计算结果文本。2.根据权利要求1所述的句子相似度计算方法,其特征在于:所述步骤S10的具体过程如下:S101、对句子对训练文本中所有句子使用词性标注工具获得句子中每个单词的词性,获得对应的词性标注训练文本;对句子对测试文本进行相同处理获得词性标注测试文本;S102、对句子对训练文本中所有句子使用句法分析工具获得每个单词所属的短语,获得短语训练文本;对句子对测试文本进行相同处理获得短语测试文本;S103、基于句子对训练文本使用命名实体识别工具得到单词所属的命名实体识别结果,获得命名实体训练文本;对句子对测试文本进行相同处理获得命名实体测试文本;S104、基于句子对训练文本使用WordNet识别工具获得单词所属的WordNet上义,如果没有WordNet上义用空格表示,得到WordNet训练文本;对句子对测试文本进行相同处理获得WordNet测试文本。3.根据权利要求1所述的句子相似度计算方法,其特征在于:所述步骤S20的具体过程如下:S201、根据词性标注训练文本,为句子对训练文本中的每个句子构造浅层句法树,得到基本浅层句法树训练文本;由句子对测试文本和词性标注测试文本得到基本浅层句法树测试文本;其中,浅层句法树构造方法如下:把一个句子中的词语生成为最底层的叶子节点;把每个叶子节点对应词的词性作为每个叶子节点的父节点;最后,设置所有的词性节点的父节点为根节点;S202、根据短语训练文本,为基本浅层句法树训练文本中的每个句子构造更深一层的浅层句法树获得短语浅层句法树训练文本;基于短语测试文本和基本浅层句法树测试文本获得短语浅层句法树测试文本;其中,更深一层的浅层句法树构造方法如下:由句子短语识别结果,获得属于同一短语单词的信息;将属于同一短语的单词叶节点的词性父节点上连接到同一chunker节点;断开根节点与词性节点之间的联系,将chunker节点连接到对应的词性节点;最后,设置所有的词性节点的父节点为根节点;S203、基于短语浅层句法树训练文本、命名实体训练文本和WordNet训练文本获得语义浅层句法树训练文本;基于短语浅层句法树测试文本、命名实体测试文本和WordNet测试文本获得语义浅层句法树测试文本;语义浅层句法树训练文本是在短语浅层句法树训练文本上加入语义信息,具体方法如下:如果短语浅层句法树训练文本中的一个单词在命名实体训练文本和WordNet训练文本中有NER或WNSS信息,将包含该单词的chunker节点的句法信息修改成NER或WNSS信息;如果一个词组节点中含有多个单词符合上述情况,使用词组内最后一个单词的NER和WNSS信息;S204、基于语义浅层句法树训练文本删除定冠词和连词相关节点,获得修剪浅层句法树训练文本;基于语义浅层句法树测试文本删除定冠词和连词相关节点,获得修剪浅层句法树测试文本;S205、基于修剪浅层句法树训练文本,将一对句子的浅层句法树相关部分关联起来获得浅层句法树训练文本;基于修剪浅层句法树测试文本,将一对句子的浅层句法树相关部分关联起来获得浅层句法树测试文本;其中,将一对句子对应的浅层句法树关联起来的方法:两个句子中某个单词如果相同,得到它们的父亲节点、祖父节点且为非终节点,标记上REL。4.根据权利要求1所述的句子相似度计算方法,其特征在于:所述步骤S30的具体过程如下:S301、基于句子对训练文本获得平面特征训练文本,基于句子对测试文本获得平面特征测试文本;其中,平面特征训练文本和平面特征测试文本分别为句子对训练文本和句子对测试文本中每行一对句子的相似度计算平面特征;S302、由平面特征训练文本与浅层句法树训练文本获得浅层句法树特征训练文本;由平面特征测试文本与浅层句法树测试文本获得浅层句法树特征测试文本。5.根据权利要求1所述的句子相似度计算方法,其特征在于:所述步骤S40的具体过程如下:S401、使用SVR获得相似度计算模型,由浅层句法树特征训练文本在SVR模型中进行训练获得训练模型;S402、把训练模型以及浅层句法树特征测试文本作为输入,利用SVR工具获得相似度计算结果文本;其中,相似度计算结果文本每行的数值对应于句子对测试文本每行一对句子的相似度计算结果。6.一种句子相似度计算系统,其特征在于,包括:-预处理模块,对句子对训练文本和句子对测试文本中所有句子调...

【专利技术属性】
技术研发人员:杨萌李培峰朱巧明周国栋朱晓旭
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1