【技术实现步骤摘要】
结合词性的英语近形词干扰项生成方法
本专利技术涉及一种自然语言的处理方法,具体的说是一种结合词性的英语近形词干扰项生成方法。
技术介绍
英语学习的过程中,经常会遇到一些易混淆的单词。易混词主要包括近义词和近形词等,其中近形词就是具有相似词形的词。例如:形容词sensitive的意思是“敏感的”,而形容词sensible的意思却是“理智的”。尽管sensitive和sensible有共同的词根,词性也相同,但这两个词却不是近义词,而是近形词。在英语测试题或其他英语学习资源的设计中,近形词经常会作为正确词选项的干扰项出现,以此增加选择的难度并且提高学习者对单词的掌握程度。传统的近形词干扰项生成算法主要采用编辑距离算法计算单词相似度,而编辑距离算法本身存在一些缺陷,导致生成近形词的准确性和合理性上存在不足,干扰项相似度低,设计不合理的问题。
技术实现思路
针对现有技术中英语单词学习中出现的干扰项相似度低,设计不合理等不足,本专利技术要解决的技术问题是提供一种能够提高英语单词相似度计算的准确性的结合词性的英语近形词干扰项生成方法。为解决上述技术问题,本专利技术采用的技术方案是:本专利技术结合词性的英语近形词干扰项生成方法包括以下步骤:从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词; ...
【技术保护点】
一种结合词性的英语近形词干扰项生成方法,其特征在于包括以下步骤:从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即相似度0.6≤a<1.0,输出单词,即得到源单词的干扰项;结束一次处理过程。
【技术特征摘要】
1.一种结合词性的英语近形词干扰项生成方法,其特征在于包括以下步骤:从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把结合词性的相似度α阈值控制在0.6~1.0之间,即相似度0.6≤α<1.0,输出单词,即得到源单词的干扰项;结束一次处理过程;结合词性的相似度计算公式为:式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度,b(str1,str2)为源单词字符串和目标单词字符串代表的两个单词词性的相似度。2.按权利要求1所述的结合词性的英语近形词干扰项生成方法,其特征在于所述归一化融合相似度算法包括以下步骤:通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;通过LCS算法得到源单词字符串str1和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)。3.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于:通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)公式如下:式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,a(str1,str2)为所求源单词字符串和目标单词...
【专利技术属性】
技术研发人员:盖荣丽,汪祖民,孙晓辉,
申请(专利权)人:大连大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。