本发明专利技术公开了一种字符串模糊匹配的方法及系统。该方法包括:S1:识别量表中的题目,对采集到的文本进行编码;S2:将正确文本的编码与采集到的文本的编码,分别采用KMP算法,得到两个需要计算相似度的字符串;S3:将步骤S2中得到的两个需要计算相似度的字符串,分别输入相似度计算函数,得到具体相似度数值;S4:将通过步骤S3得到相似度数值与预设的相似度阈值进行比较,判断采集到的文本是否与正确文本匹配成功。本发明专利技术解决了多种混合字符统一编码问题,方便各种场合下字符匹配和关键词搜索,并实现了快速关键词模糊匹配,提高了关键词信息匹配和搜索的准确率。匹配和搜索的准确率。匹配和搜索的准确率。
【技术实现步骤摘要】
一种字符串模糊匹配的方法及系统
[0001]本专利技术涉及一种字符串模糊匹配的方法,同时也涉及一种字符串模糊匹配的系统,属于计算机文本处理
技术介绍
[0002]在诸如蒙特利尔认知评估量表(MOCA)、简易智力状态检查量表(Mini
‑
mental State Examination,简写为MMSE)等认知相关的量表测评中会涉及一些记忆相关的题型,该类题型要求被试回忆并复述测试过程中出现过的词语、句子等文字。使用高效准确的字符串匹配算法可以实现针对被试回答的自动化评估,相对传统的人工评估具有极大的效率优势。由于被试在测试过程通常以手写输入或使用语音进行回答,需要通过光学字符识别(Optical Character Recognition,简写为OCR)技术或语音识别技术将被试的答案转化为文本后才能对答案的准确性进行评估,即判断被试答案与正确文本之间的匹配度。由于作为中间环节的光学字符识别和语音识别通常会引入部分识别错误,直接使用传统的字符串匹配方案可能会导致被试答案被误判。为了兼容光学字符识别和语音识别带来的误差,有必要提供一种高效准确的字符串模糊匹配方案,以适应量表自动化评估的应用需求。
[0003]在专利号为ZL 202211112979.2的中国专利技术专利中,公开了一种字符串模糊匹配方法。该方法包括如下步骤:针对第一字符串集合中的字符串,按照预设模糊匹配规则,生成与第一字符串集合中的字符串满足预设模糊匹配规则的第一衍生字符串,得到由各第一衍生字符串和第一字符串集合中的字符串组成的第一衍生字符串集合;针对第一衍生字符串集合和待求交字符串集合执行求交操作,得到第一衍生字符串集合与待求交字符串集合的字符串交集;针对字符串交集中的每个交集字符串,将第二字符串集合中与该交集字符串对应的字符串,确定为与第一字符串集合中与该交集字符串对应的字符串相匹配的字符串。
[0004]另外,在专利号为ZL 201711441987.0的中国专利技术专利中,公开了一种用于字符串模糊匹配的方法。该方法包含下列步骤:构建关于多个业务规则参数的哈希表,其中,业务规则参数以字符串的形式表示;确定用于表示业务规则参数的字符串的各个字符的匹配规则;以及在哈希表中遍历查找表示待匹配业务类型的字符串并且基于匹配规则获得待匹配业务类型的匹配结果。
技术实现思路
[0005]本专利技术所要解决的首要技术问题在于提供一种字符串模糊匹配的方法。
[0006]本专利技术所要解决的另一技术问题在于提供一种字符串模糊匹配的系统。
[0007]为实现上述技术目的,本专利技术采用以下的技术方案:根据本专利技术实施例的第一方面,提供一种字符串模糊匹配的方法,包括如下步骤:S1:识别量表中的题目,对采集到的文本进行编码;S2:将正确文本的编码与采集到的文本的编码,分别采用KMP算法,得到两个需要
计算相似度的字符串;S3:将步骤S2中得到的两个需要计算相似度的字符串,分别输入相似度计算函数,得到具体相似度数值;S4:将通过步骤S3得到相似度数值与预设的相似度阈值进行比较,判断采集到的文本是否与正确文本匹配成功。
[0008]其中较优地,对采集到的文本进行编码的编码模式包括形码编码、音码编码、混合编码,其中,所述混合编码为形码编码和音码编码组合在一起。
[0009]其中较优地,所述形码编码包括字符形状编码、字符结构编码和四角编码。
[0010]其中较优地,所述字符形状编码是根据字符的形状把字符分类为多组,并且每组字符中的各个字符的字符形状编码赋码相同;所述字符结构编码是根据字符的构成结构分类为多组,并且每组字符中的各个字符的字符结构编码赋码相同。
[0011]其中较优地,利用语音识别得到文本或者利用图像识别得到文本,再利用所述文本生成所述音码编码、所述形码编码或所述混合编码中的任意一个或多个。
[0012]其中较优地,在所述步骤S4中,若通过步骤S3得到的相似度数值大于等于预设的相似度阈值,则表示匹配成功,返回步骤S1进入下一题目,直至完成全部题目则结束;若通过步骤S3得到的相似度数值小于预设的相似度阈值,则匹配失败,系统提示使用者重新输入或返回步骤S1进入下一题目。
[0013]其中较优地,所述音码编码的编码规则为:将汉字转化为拼音,转化完成后将拼音拆分为声母和韵母,根据对应的编码表生成:声母、韵母、韵补及音调的编码组合。
[0014]其中较优地,所述相似度计算函数如下:
[0015]其中,sim为两个编码序列的相似度,取值为[0,1],sim的数值越大,则表示两个编码序列的相似度越高,sim的数值越小,则表示两个编码序列的相似度越小;Wi为待匹配字符串的编码的权重,;N为待匹配字符串的编码的长度;p[i]表示两个待匹配的字符串的编码的对应位上的码元相同则为1,不同为0。
[0016]其中较优地,所述权重的设置规则为:在形码编码中,字符形状权重和字符结构权重相等,并且两者权重均小于四角编码权重,权重总和为1;在音码编码中,声母权重、韵母权重、韵补权重相等,并且三者权重均大于音调权重,权重总和为1;在混合编码中,形码编码权重和音码编码权重相等,形码编码中各自权重关系与形码编码中各自权重关系相同,音码编码各自权重关系与音码编码中各自权重关系相同,权重总和为1。
[0017]根据本专利技术实施例的第二方面,提供一种字符串模糊匹配的系统,包括处理器和存储器;所述存储器用于存储计算机程序,当该计算机程序被所述处理器执行时,实现上述字符串模糊匹配的方法。
[0018]与现有技术相比较,本专利技术额外使用了字形信息(形码编码)和声学信息(音码编码),可以从更丰富的维度刻画字符之间的相似度,因而取得了更好的字符串搜索匹配效果。另一方面,本专利技术实现了快速关键词模糊匹配,提高了关键词信息匹配和搜索的准确率。
附图说明
[0019]图1为本专利技术实施例提供的一种字符串模糊匹配的方法流程图;图2为本专利技术实施例中,字符结构编码的示例图;图3为本专利技术实施例提供的一种字符串模糊匹配的系统示意图。
具体实施方式
[0020]下面结合附图和具体实施例对本专利技术的
技术实现思路
进行详细具体的说明。
[0021]如图1所示,本专利技术实施例提供的一种字符串模糊匹配的方法,包括如下步骤:S1:识别量表中的题目,对采集到的文本进行编码。
[0022]其中,编码模式包括形码编码、音码编码、混合编码。
[0023]当识别场景为手写字体识别时,则使用所述形码编码;其中,手写字体识别时,首先通过OCR识别技术对手写字体进行识别处理,然后对识别后的字符做形码编码处理。
[0024]当识别场景为语音转文本(例如,利用OCR识别技术将语音转换为文本)后对转换的文本进行信息识别时,则使用音码编码;当识别场景为既需要输入语音也需要手写输入时,或者在形码编码或音码编码的准确率未达到预设条件时,则使用混合编码。
[0025]需要说明的是,每套系统仅包括一种编码模式,不存在单一本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种字符串模糊匹配的方法,其特征在于包括:S1:识别量表中的题目,对采集到的文本进行编码;S2:将正确文本的编码与采集到的文本的编码,分别采用KMP算法,得到两个需要计算相似度的字符串;S3:将步骤S2中得到的两个需要计算相似度的字符串,分别输入相似度计算函数,得到具体相似度数值;S4:将通过步骤S3得到相似度数值与预设的相似度阈值进行比较,判断采集到的文本是否与正确文本匹配成功。2.如权利要求1所述的方法,其特征在于:对采集到的文本进行编码的编码模式包括形码编码、音码编码、混合编码,其中,所述混合编码为形码编码和音码编码组合在一起。3.如权利要求2所述的方法,其特征在于:所述形码编码包括字符形状编码、字符结构编码和四角编码。4.如权利要求3所述的方法,其特征在于:所述字符形状编码是根据字符的形状把字符分类为多组,并且每组字符中的各个字符的字符形状编码赋码相同;所述字符结构编码是根据字符的构成结构分类为多组,并且每组字符中的各个字符的字符结构编码赋码相同。5.如权利要求4所述的方法,其特征在于:利用语音识别得到文本或者利用图像识别得到文本,再利用所述文本生成所述音码编码、所述形码编码或所述混合编码中的任意一个或多个。6.如权利要求4所述的方法,其特征在于:在所述步骤S4中,若通过步骤S3得到的相似度数值大于等于预设的相似度阈值,则表示匹配成功,返回步骤S1进入下一题目,直至完成全部题目则结束;若通过步骤S3得到的...
【专利技术属性】
技术研发人员:刘川,梁淇贺,沈一,蔡龙军,
申请(专利权)人:北京智精灵科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。