用于车辆内自动交互的面向服务语音识别制造技术

技术编号:7318946 阅读:214 留言:0更新日期:2012-05-04 13:18
一种在车辆中实施基于服务的语音识别系统用于多模态自动交互的系统和方法,包括由车辆驾驶员通过板上人机接口接收音频提示并用语音响应以完成诸如创建并发送文本信息消息、网页浏览、导航等的任务。该面向服务的架构用于以适应性方式调用专业语音识别器。该人机接口能在驾驶车辆时以使得驾驶员和所述接口视觉地和机械地交互频率最小化的形式完成文本输入任务,因此在驾驶情况下消除不安全的干扰。在最初的提示之后,键入任务之后是文本的计算机化言语表示。随后的接口步骤本质上是可视的,并只涉及声音。

【技术实现步骤摘要】
【国外来华专利技术】用于车辆内自动交互的面向服务语音识别
技术介绍
本专利技术总体上涉及实施基于服务的语音识别系统用于多模态交互的系统和方法, 所述多模态交互能应用于任何交互式自动系统,诸如在机动车中使用的交互式自动系统。 更具体而言,本专利技术涉及利用多个语音识别器和相关的车辆内人机接口的系统和方法,用于为驾车者在驾驶情况下创建高效安全、可靠便利并舒适的体验并同时实现高自动化率。本专利技术的主要目的在于提供具有高效自动化的呼叫中心企业,用于在不损害对客户的服务质量的情况下降低成本。交互式自动应该是客户或驾车者完成任务的优选交互措施,这些任务否则需要经过呼叫中心通过个人/代理交互进行处理。在本专利技术中,面向服务结构(SOA)用于选择性地以唯一适应性的方式利用专业语音识别器。如在此所述,该方法的优势在于提供安全舒适的用户接口并改进呼叫中心的效率。Telematics (车载信息服务系统)服务的出现在十年之前引入,并带来了如下趋势包含车辆与远程数据中心通信并发送涉及安全、保安和应急故障的位置数据和车辆信息的能力。如在本领域中所称的,“telematics”包括无线通信、车辆监视系统和定位设备的集成。在自动式交互中该项技术结合了无线声音和数据能力用于管理信息和安全应用。大多数早期的telematics通信通过无线声音通道实现,所述无线声音通道本质上是模拟的。根据2008年的法律,所有的模拟连接成为数字的,并因此,诸如“3G”技术等的数据连接成为移动设备“连接”到因特网的容易获得的技术。作为这些改进的结果,在称为“连接车辆”概念中,车辆也适于利用数据连接结合声音通道连接。“连接车辆”概念继续在过去数年间演变,并且商业上出现了相当复杂的车辆服务。这些服务经常依靠车辆位置以及“云计算”,所述“云计算”被定义为经过数据通道访问的网络服务。这些服务的示例包括板下路由、目的地获取、远程车辆诊断、音乐下载、交通报告、本地搜索、访问门房(concierge)服务、连接车辆销售员以及路旁帮助。如在此使用的术语“板下”指远离车辆或车辆外的位置。如在此使用的术语“本地搜索”指根据特定位置的临近处的兴趣点(POI)搜索。上面给出的示例被认为本质上是以车辆为中心的,并且许多引起了某些形式的与现场代理或板下交互式自动系统的声音通信。近年来,出现该趋势驾驶员在诸如移动设备等的车辆内操作个人设备,使得驾驶时不安全。现在将内置式用户接口添加到车辆内侧以提供如车辆自身组件的这些移动功能。然而,关于这些内置式组件的安全性和实用性的关注仍然存在。难于以在驾驶时使其安全的形式使能车辆内的个人设备功能。用户接口对于车辆驾驶员在驾驶时使用一点不实用。不仅由于设备屏幕相当小,而且更重要的,操作和使用常规移动设备的主要输入模态包括用户和设备某些形式的输入或机械地交互。当司机的认知处理关注于没有集中在安全驾驶车辆的其他任务时,将出现司机分心。打电话以及将数据输入到移动设备中是驾驶时非常分心的任务的示例。驾驶时常规键入是非常危险的,这是因为需要视觉和触觉,使得安全驾驶不现实。例如,当开车时,通过扭曲并微调旋钮直到突出显示每个目标字母,接着推旋钮(“knobbing”)来输入消息是不明智的。然而,即使这是个危险的经历,但“推旋钮”有时是将目的地输入车辆导航系统的唯一方式。为了减少安全问题,某些现有的内置式系统试图有意地将接口使用限制在只当车辆静止时。令人遗憾的是,这种静态需求相反地危及车辆内系统可能具有的能力范围。因此,使用有效的语音接口限制或完全消除驾驶者使用他或她的手操作接口的需要是有利的。除了导航以及拨电话号码,诸如浏览和发短信等的其他应用也得益于利用语音使能键入。因此,语音识别在使能车辆内个人设备功能中发挥了重要作用。因此,需要简单安全的有效多模态接口以在驾驶情况中使用。而且,在车辆内的环境中实施语音使能功能提出了唯一并困难的挑战。例如,麦克风一定不能用手,因此必须与发言者的嘴巴保持一定距离。再者,马路噪音是嘈杂且不稳定的。而且,车辆内可能有多个人也在交谈,因此使系统难于在多个不同的声音中解码某个人的语音。因为车辆呈现了如此困难的语音识别环境,因此需要显著的语音识别优化以实现合理的语音识别执行。需要克服上述的现有技术中的问题。本质上,需要能在嘈杂的环境中完成复杂语音任务的语音识别引擎。此外,对企业提供实用系统和方法以在不需要企业内专家 (in-house expertise)支持改进的语音识别的情况下开发语音使能应用、托管应用并维护应用也是有利的。因此,需要简单安全的有效多模态接口以用于驾驶情况下。只有能获得有效的语音接口,驾驶时车辆内的个人设备功能才是安全的。因此,提供在驾驶时能安全完成文本键入任务的车辆内人机接口是有利的。专利技术概述本专利技术提供用于完成任务的安全措施,所述任务包括在驾驶情况下键入。由于接口经设计为极端简单并能快速使用,因此能实现安全性。通过在车辆内交互中利用语音和听觉作为主要的输入/输出模态并同时减少完成任务所需的视觉和机械交互的需要实现对驾驶者的简便性。因此,在本专利技术中,如上述的改进的类人语音识别系统用于使能键入短文本字符串的处理。具体而言,本专利技术涉及一种提示方法,该提示开始于语音任务并接着文本的计算机化言语表示。随后的用户接口步骤本质上是可视的,或只涉及声音。对于用户来说,车辆驾驶员听见音频提示并用语音响应以完成诸如创建文本消息等的任务。结果,本专利技术使得车辆驾驶员使用他们的语音输入文本字符串变得实用。通过利用连接到远程(或托管)语音识别系统的语音识别方案(称为“S0A”),非同步方法能用于识别语音。如果应用包括合适的询问,对话总在向前推进,并且不要求用户重复表达,即使用户要求重复短语。该方法的优势在于提供安全舒适的用户接口,在驾驶车辆时有兴趣使用。本专利技术的实施例提供一种实施交互式自动系统的方法,该方法包括使用位于个人临近位置的处理系统处理所述个人的口头表达,使用无线链接将所述经处理的语音信息发送到远程数据中心,分析所述经处理并传送的处理语音信息以度量并标出所述语音表达的端点,将所述经分析的语音信息转换为分组数据格式,选择至少一个最佳专业语音识别引擎以将所述经转换的语音信息翻译为文本格式,利用因特网协议传输网络将所述分组语音信息传输到至少一个经选择的专业语音识别引擎,从所述至少一个专业语音识别引擎检索所述识别结果和相关信心分数,如果所述信心分数达到或超过最佳匹配的预定阈值,则继续和所述车辆驾驶员的自动对话,以及如果所述信心分数较低以致低于最佳匹配的预定阈值时,选择至少一个可替换的专业语音识别引擎,以将所述经转换的语音信息翻译为文本格式。根据另一特征,本专利技术的实施例包括其中所述至少一个可替换的专业语音识别引擎是代理辅助的。根据另一特征,本专利技术的实施例包括其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。根据另一特征,本专利技术的实施例包括其中根据所述个人的所述给定意图选择所述至少一个经选择的最佳专业语音引擎。根据本专利技术的另一特征,在以非同步方式接收所述识别结果之前或之后继续与所述个人进行自动对话。根据本专利技术的另一特征,在以同步方式接收所述识别结果之后继续与所述个人进行自动对话。根据另一特征,本专利技术实施例进一步包括登记所述分组数据和识别结果用于随后分析。根据本本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:T·B·沙尔克L·萨恩斯B·伯奇
申请(专利权)人:ATX集团股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术