当前位置: 首页 > 专利查询>大连大学专利>正文

结合词性的英语近形词干扰项生成方法技术

技术编号:10171858 阅读:196 留言:0更新日期:2014-07-02 12:51
本发明专利技术涉及一种结合词性的英语近形词干扰项生成方法,包括以下步骤:从词库中选取源单词作为源单词字符串,其他单词作为目标单词字符串,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串和目标字符串的相似度;把相似度阈值控制在0.6~1.0之间,满足上述阈值范围的单词为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即得到源单词的干扰项;结束一次处理过程。本发明专利技术引入了LCS算法进行归一化融合,改变了单纯依赖一种相似度算法计算英语单词相似度的盲目性,提高了生成英语近形词干扰项的可靠性和准确性,解决了相同词义但是不同词性重复出现的问题。

【技术实现步骤摘要】
结合词性的英语近形词干扰项生成方法
本专利技术涉及一种自然语言的处理方法,具体的说是一种结合词性的英语近形词干扰项生成方法。
技术介绍
英语学习的过程中,经常会遇到一些易混淆的单词。易混词主要包括近义词和近形词等,其中近形词就是具有相似词形的词。例如:形容词sensitive的意思是“敏感的”,而形容词sensible的意思却是“理智的”。尽管sensitive和sensible有共同的词根,词性也相同,但这两个词却不是近义词,而是近形词。在英语测试题或其他英语学习资源的设计中,近形词经常会作为正确词选项的干扰项出现,以此增加选择的难度并且提高学习者对单词的掌握程度。传统的近形词干扰项生成算法主要采用编辑距离算法计算单词相似度,而编辑距离算法本身存在一些缺陷,导致生成近形词的准确性和合理性上存在不足,干扰项相似度低,设计不合理的问题。
技术实现思路
针对现有技术中英语单词学习中出现的干扰项相似度低,设计不合理等不足,本专利技术要解决的技术问题是提供一种能够提高英语单词相似度计算的准确性的结合词性的英语近形词干扰项生成方法。为解决上述技术问题,本专利技术采用的技术方案是:本专利技术结合词性的英语近形词干扰项生成方法包括以下步骤:从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把结合词性的相似度α阈值控制在0.6~1.0之间,即相似度0.6≤α<1.0,输出单词,即得到源单词的干扰项;结束一次处理过程;结合词性的相似度计算公式为:式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度,b(str1,str2)为源单词字符串和目标单词字符串代表的两个单词词性的相似度。所述归一化融合相似度算法包括以下步骤:通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;通过LCS算法得到源单词字符串str1和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)。通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)公式如下:式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,a(str1,str2)为所求源单词字符串和目标单词字符串的相似度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度;λ1、λ2为系数,λ1=0.3~0.5,λ2=0.5~0.7,且λ1+λ1=1。通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离步骤为:如果字符串str1或str2的长度为0,则返回另一个字符串的长度;构造并初始化一个(m+1)×(n+1)的矩阵D,使第一行和第一列的值从0开始增长;扫描两字符串,用cost记录结果,若str1[i]=str2[j]则cost=0,否则cost=1;在矩阵Dij处赋值Di-1,j+1、Di,j-1+1和Di-1,j-1+cost三个中的最小值;扫描完后,返回矩阵的最后一个值即Dmn即编辑距离D(str1,str2)。编辑距离算法相似度计算公式:编辑距离相似度式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,length1=m,length2=n。通过LCS算法求源单词字符串str1和目标字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度步骤为;如果字符串str1或str2的长度为0,则返回0;构造并初始化一个(m+1)×(n+1)的矩阵L,使第一行和第一列的值都为0,即L0j=Li0=0,若str1[i]=str2[j]则Lij=1,否则Lij=0;按公式(3)刷新矩阵L,最后得到矩阵L中的最大值即最长公共子序列长度LCS(str1,str2):LCS算法相似度计算公式:LCS相似度式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,LCS(str1,str2)代表源单词字符串和目标单词字符串的最长公共子序列的长度;Lij代表矩阵L中的第i行第j列的元素,length1=m,length2=n。本专利技术具有以下有益效果及优点:1.本专利技术提出一种改进的计算英语单词相似度的算法。同时结合了单词自身词性进行干扰项设计,提高了英语单词相似度计算的准确性,并能生成更合理的单词干扰项。2.本专利技术提出了结合词性的英语近形词干扰项生成方法,在原有的基于编辑距离算法的基础上引入了LCS算法进行归一化融合,改变了单纯依赖一种相似度算法计算英语单词相似度的盲目性,提高了生成英语近形词干扰项的可靠性和准确性。3.本专利技术方法在干扰项生成中引入单词词性作为限制条件,很好的解决了相同词义但是不同词性重复出现的问题。4.本专利技术方法通过实验验证了干扰项生成算法在准确性和可靠性上的提高,并且能生成效果良好的英语近形词干扰项。附图说明图1为本专利技术方法流程图。具体实施方式下面结合说明书附图对本专利技术作进一步阐述。本专利技术在编辑距离算法的基础上引入了LCS算法,并对两者归一化融合,提高了单词的相似度计算的准确性和可靠性。然后本文档来自技高网...
结合词性的英语近形词干扰项生成方法

【技术保护点】
一种结合词性的英语近形词干扰项生成方法,其特征在于包括以下步骤:从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即相似度0.6≤a<1.0,输出单词,即得到源单词的干扰项;结束一次处理过程。

【技术特征摘要】
1.一种结合词性的英语近形词干扰项生成方法,其特征在于包括以下步骤:从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把结合词性的相似度α阈值控制在0.6~1.0之间,即相似度0.6≤α<1.0,输出单词,即得到源单词的干扰项;结束一次处理过程;结合词性的相似度计算公式为:式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度,b(str1,str2)为源单词字符串和目标单词字符串代表的两个单词词性的相似度。2.按权利要求1所述的结合词性的英语近形词干扰项生成方法,其特征在于所述归一化融合相似度算法包括以下步骤:通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;通过LCS算法得到源单词字符串str1和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)。3.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于:通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)公式如下:式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,a(str1,str2)为所求源单词字符串和目标单词...

【专利技术属性】
技术研发人员:盖荣丽汪祖民孙晓辉
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1