基于隐马尔科夫模型的统计语音合成方法及装置制造方法及图纸

技术编号:12304155 阅读:99 留言:0更新日期:2015-11-11 13:26
一种基于隐马尔科夫模型的统计语音合成方法及装置,通过生成关联多模态的自然语言问题,根据自然语言问题生成相应图片并加入干扰元素,根据问题文本,使用基于HMM的语音合成方法的多模态验证码合成语音并加入噪声,本发明专利技术将验证码的模式从单模态提升到互相之间有语义关联的多模态,进一步增进现有验证码对于人类和计算机的区分性,提升互联网验证系统的人机区分度,加强安全性能。

【技术实现步骤摘要】

本专利技术涉及的是一种中文多模态验证码。尤其是基于隐马尔科夫模型的统计语音 合成的多模态验证码以及通过自然语言语义连接不同模态(图片和声音)的信息。
技术介绍
验证码的全称是全自动区分计算机和人类的公开图灵测试,是一种用来区分用户 是否是人类的测试。其实现机制是由计算机程序自动生成一个问题由用户来解答,这个问 题的能由人类解答,但是计算机不能解答。因此用户能够回答出问题,就被认为是人类。验 证码的特点还包括可以由计算机程序全自动生成,其答案可以由计算机评判正误。 验证码的作用在于有效防止利用技术手段进行大量自动化的操作,保护服务器的 计算资源和安全:例如防止网站的批量注册,防止大规模网上发帖、发广告和垃圾信息,防 止密码被暴力破解,防止网站被恶意攻击等等。所以在互联网安全领域,验证码的应用十分 广泛。近年来由于在线支付的发展,涉及到金钱交易的登录系统越来越多,也增大了破解登 录系统验证码的诱惑。许多个人和商业公司,用不同的方法在尝试破解验证码,这就给网站 的安全和用户的隐私带来了隐患。 目前,验证码主要有识别图像中的文字、识别语音中的文字和回答验证问题等几 种形式。大部分的网站采用图片验证码,即通过程序随机生成一个字符串,可以是英文、中 文或者数字,将该字符串生成为图片交由用户识别。用户将肉眼识别的结果提交到服务器, 如果提交的字符串和原始生成的字符串一致,就通过了此次验证码测试。语音验证码同理, 只不过给用户识别的媒介是字符串发音的音频。通常来说,为了防止机器识别,图片验证码 需要对字符串文本做出变形,并加入噪点;语音验证码需要加入背景音、噪音。 经过现有的技术检索发现,中国专利公开号CN101420305A,公开了一种"语音验证 码的实现方法"。该方法使用提前录制的英文字母和数字音频组合成为验证音频。该方法 的缺陷在于:第一是在国内无法广发应用,大众对英文字母的识别率并不高;第二是由单 个语音元素直接组合,并且语音元素数量太少,目前的语音识别系统已经对此类音频有了 良好的识别效果。 中国专利公开号CN101662365A,公开了一种"中文语音验证码的生成方法",其中 验证音频文件是由验证码基本信息数据库中抽取并合成,添加干扰的背景音,再进行变调 (回声)处理。该方法的缺陷在于,由数据库中抽取的音频文件,发音不可变,有可能通过降 噪处理之后进行准确识别。 中国专利公开号CN1980128A,公开了一种"互联网用户验证的方法和系统"。其中 验证码的实现方案是,按照人类自然语言理解的机制产生验证问题,用户理解该验证问题 并通过人工思考产生答案。此方法缺少随机性,有可能通过不断刷新验证页面,获取大量的 验证问题,即爬取问题数据库,被暴力破解。 中国专利公开号CN102567655A,公开了一种"机器人外挂检测系统及方法"。其 中问题生成模块在服务器端,根据当前的用户信息(问题的答案),如用户在游戏中的经验 值,通过自然语言生成方法随机自动生成问题,并由语音合成模块将问题从文本转换成语 音,传送到客户端。此方法对同一个问题来说,不同用户的答案不同,因此不具备作为普适 的验证码的特点。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种基于隐马尔科夫模型的统计语音 合成方法及装置,将验证码的模式从单模态提升到互相之间有语义关联的多模态,进一步 增进现有验证码对于人类和计算机的区分性,提升互联网验证系统的人机区分度,加强安 全性能。 本专利技术是通过以下技术方案实现的: 本专利技术涉及一种基于隐马尔科夫模型的统计语音合成方法,通过生成关联多模态 的自然语言问题,根据自然语言问题生成相应图片并加入干扰元素,根据问题文本,使用基 于HMM(隐马尔科夫模型)的语音合成方法的多模态验证码合成语音,并加入噪声,使得破 解验证码的难度由单模态的验证码破解概率提升到几个单模态的验证码破解概率的叠加, 在不降低用户体验的基础上提高了验证码的人机区分度。 本专利技术涉及一种实现上述方法的装置,包括:自然语言问题生成模块、图片生成模 块以及语音合成模块模块,其中:自然语言问题生成模块与图片生成模块、语音合成模块相 连,并输出图片生成规则到图片生成模块,输出自然语言问题字符串到语音合成模块,输出 问题答案;图片生成模块与自然语言问题生成模块相连并接收图片生成规则,输出最终生 成的图片;语音合成模块与自然语言问题生成模块相连并接收自然语言问题字符串,输出 最终合成的语音。 所述的自然语言问题生成模块包括:数据持久单元、参数生成单元、问题与文本答 案生成单元,其中:数据持久单元与参数生成单元、问题与文本答案生成单元相连,向参数 生成单元和问题与文本答案生成单元发送自然语言问题模版,向图片生成模块发送图片生 成规则;参数生成单元与数据持久单元、问题与文本答案生成单元相连,从数据持久单元接 收自然语言问题模版,提取参数列表,随机生成参数并发送到问题与文本答案生成单元和 图片生成模块;问题与文本答案生成单元与数据持久单元、参数生成单元相连,从数据持久 单元接收自然语言问题模版,从参数生成单元接收参数,生成自然语言问题字符串传送给 语音合成模块,计算得到答案并。 所述的图片生成模块包括:原始图片生成单元、数据持久单元、变换与加噪单元, 其中:原始图片生成单元与变换与加噪单元相连,接自然语言问题生成模块传送过来的参 数和图片生成规则,将参数带入图片生成规则,生成原始图片,传送到变换与加噪单元;数 据持久单元和变换与加噪单元相连,向变换与加噪单元随机发送噪声图片;变换与加噪单 元与原始图片生成单元、数据持久单元相连,接收原始图片生成单元的发送的原始图片和 数据持久单元发送的噪声图片,将原始图片通过几何变换相互拼接,再与噪声图片叠加,生 成最后的图片并传送给用户端。 所述的语音合成模块包括:数据持久单元、参数调整单元、自适应合成单元单元、 统计合成单元,其中:数据持久单元与参数调整单元和自适应合成单元单元相连,向参数调 整单元发送预先存储的参数动态调整范围,随机选择事先训练的声音模型、决策树已经自 适应数据集并向自适应合成单元单元发送;参数调整单元与数据持久单元、统计合成单元 相连,从数据持久单元接收参数动态调整范围,生成动态调整的参数并向统计合成单元发 送;自适应合成单元单元接收参数调整单元发送的声音模型、决策树以及自适应数据集,对 该模型做自适应训练并输出训练得到的声音模型和决策树到统计合成单元;统计合成单元 与数据持久单元、参数调整单元、自适应合成单元单元相连,接收参数调整单元传送的参数 并对自适应合成单元单元传送过来的时长模型进行调整,最后接收自然语言问题生成模块 传送的问题字符串,生成问题语音并传送给用户端。 技术效果 与现有技术相比,本专利技术提升了验证码对于人和计算机的区分度,在不降低人的 理解难度的情况下,使现有破解程序破解成功的概率,由单模态的破解成功的概率,变成了 语音识别成功的概率、语义理解成功的概率、以当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种基于隐马尔科夫模型的统计语音合成方法,其特征在于,通过生成关联多模态的自然语言问题,根据自然语言问题生成相应图片并加入干扰元素,根据问题文本,使用基于HMM的语音合成方法的多模态验证码合成语音并加入噪声,使得破解验证码的难度由单模态的验证码破解概率提升到几个单模态的验证码破解概率的叠加,在不降低用户体验的基础上提高了验证码的人机区分度。

【技术特征摘要】

【专利技术属性】
技术研发人员:俞凯王向然陈博徐佳琛
申请(专利权)人:上海交通大学苏州思必驰信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1