提供可由操作员干预支持的人机对话的方法和设备技术

技术编号:2890776 阅读:166 留言:0更新日期:2012-04-11 18:40
在按照由用户提交的相继的用户言语项目执行一个用户交互式系统的相继的计算机程序段的同时,实现人机对话的一种方法,相继的用户言语项目是对由系统提交给用户的相继的系统言语项目的反应而产生的,每一个这样的系统言语项目相应于一个各自的程序段,所述方法包括以下相继的步骤: a.由系统向用户提交一个相应于一个程序段的系统言语项目; b.由系统识别由用户提交给系统的一个用户言语项目;其特征在于: c.评价所述识别结果并回复到部分a,同时根据所述识别,在多个这样的程序段中选择每一个与一个后继的系统言语项目有关的一个,和根据所述评价保持与所述对话有关的一个进展分数,并在一个特定的进展分数级的控制下允许系统操作员以非强制性方式干预所述对话。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

技术介绍
本专利技术涉及在按照由一个用户相继提交的用户言语项目执行一个用户交互式系统的计算机程序的相继段的同时执行人机对话的方法,相继的用户言语项目是对由系统给用户提出的相继的系统言语项目的反应而产生,每一个这样的系统言语项目相应于一个各自的程序段,所述方法包括下述相继步骤a.由系统向用户提交相应于一个程序段的一个系统言语项目,b.由系统识别由用户提交给系统的一个用户言语项目。这类方法在转让给本专利技术的受让人的美国专利4959864(PHN11266)中公开。已知技术在所述对话期间记录用户的异议数,且当所述异议的评分达到一个特定的分数级时,该系统自动地和无需入照应地转移到一个更为明确的反应级。本专利技术发现,尽管在开发对话的组织(由程序代表的)时采取的各种考虑,在许多场合下许多用户仍不能正确地与机器反应,使得对话无效。另一方面,切换到与操作员直接对话,有时使使用人员感到受支配。此外,操作员的干预常常需要操作员执行对话直到其结束。在这一方面,本专利技术将允许操作员不仅能进入对话,而且也可再次离开对话,而不使后者的结构令使用人员不快,对话不能充分进行的主要原因是在一定的情况下机器非常难于理解用户,这或者是由于用户不理解机器的问题,或更为经常的是由于语音识别对该特定用户不够有效而引起。后一问题可由用户的语言特征引起,例如外国人或其它口音;或由系统问题引起,例如在电话应答系统的情况中,线路质量不好。专利技术总述因此,除了其它目的之外,本专利技术的一个目的是根据前叙提供一种方法,其中系统转移到另一人机交互对话级的过程多多少少保持为不可见的。现在根据一个方面,本专利技术的特点在于,对所述识别结果的评价和回复到部分a,同时,在所述识别基础上在多个这样的程序段之中选择每一个与后继系统言语项目有关的程序段,和在所述评价的基础上保持与所述对话相关的进展分数,并且在一个特定的进展分数级的控制下,许可系统操作员以非强制性的方式干预所述对话。以这种方式,机器仿佛掩盖了操作员的动作,而同时允许操作员干预,或者产生可正确识另的项目,或者产生基于正确理解对话过程的那些项目。优点是,本方法包括并行执行多个对话,同时比较和分等每一个与各所述对话有关的单独的进展分数级,并且在一个特定的进展分数的控制下在所述对话中分等,使得系统操作员以非强制性的方式干预有关的对话。以这种方式,一个或多个操作人员可以监视多个并行执行的对话,同时,机器指示出最需要人干预的一个或多个对话,比如通过一个相对缓慢的进展。另一可选方案为,在某些对话中,像有关学习系统的对话,相反对进行最快的对话可以保证干预。优点是,所述许可能让系统操作员通过模拟一个提交给系统的用户言语项目模仿用户。可以通过键盘执行干预,但是常常最快和最有效的是直接由操作员口答来代换一个用户提供的项目,例如对一个问题的回答。特别当用户对回答的关键词,例如一个市镇的名字说错或通常当用户语音减弱时,优点将十分明显。另一方面,利用鼠标或键盘的机械输入有时更为适宜。本专利技术也涉及实现这种方法的设备。本专利技术的其它优点在有关权利要求中叙述。下面参考优选实施例的公开,特别是参考附图,详细讨论本专利技术的这些方面和其它方面及其优点,附图中附图说明图1表示一个根据本专利技术的多对话系统;图2表示一个根据本专利技术的流程图;图3表示本专利技术的一个功能框图。优选实施例的详细公开下面参考一个火车线路查询系统公开本专利技术的一个优选实施例。而许多其它的对话环境也是适宜的,像其它查询系统,例如一个电话目录查询系统、或对家用电器或填写税务表格问题的帮助台等。另一个环境应该是基于一个对话结构的学习系统。在一个查询系统中,机器一般提出一系列问题以发现用户最终需要什么信息,而在另外的环境中,问题和回答之间的分布较少对称。图1表示了一个根据本专利技术实现一个查询系统的多对话系统。该系统能够在一个操作员的监视下维持三个并行的对话。在实践中,这些数字不受限制。该系统不必在其它方面一致,原因是如地理距离,用户特性和不同的操作员的技能可能起一定的作用。该系统有三个双向用户接口设备20-24,它们独自操作一条音频通道。接口设备可以有一个扬声器和一个话筒。另一解决方案是这些接口设备连接到一条可以是ISDN的电话线上,它提供数字数据的传输。可选的另一方案是它们为或多或少需持续显示的关键信息,像运行时间表、被识别的市镇名或车费数额,补充一个视频输出通道。元件26-30是模拟音频通道和系统中其余部分中的数字数据处理的接口;在ISDN环境中,这些不一定需要。现在采样音频输入并将其数字化。输出分组被转变为模拟信号,需要的话还进行滤波。框31、32、33是语音识别器。对于根据本实施例建立在德国的系统,这些识别器可以识别1100个车站名的语汇和900个其它的词,像时间和一天中时间的限定词(例如“早”、“下午”,日期和月份),一组对该项应用关键的术语,像“快车”、“快”、“头等”等等,最后是一组普通的词,这些被识别的术语以发音序列和以位串码的形式输出。框34、36、38代表各自的对话控制设备,它们解释在各种不同的水平上识别的结果(下面将讨论),并决定对话的状态。如果需要进一步的问题,那么产生这些问题并输出到相关的框26、28、30,以便提交给用户。如果控制设备确定它知道用户实际想要的项目,该项目也提交给该用户。框40、42、44跟踪到目前的识别过程,例如,它们可能存储用户言语项目,或者以提交给操作员监听的形式,或者以被识别的文本形式,后者由操作员在图中未明确示出的操作员视像显示器上查看。另外每一框40-44保存一个有关进展的分数;这可能以一个数字的形式或其它形式实现。框40-44输出到操作员控制系统52。该操作员控制系统可以是一个配置齐全的工作站,带有双向辅助音频通道(未示出),或只带有在这种工作站上通常配备的设备的一部分。在工作站上,各个处理的进展分数自动从“坏”到“好”分等,选择最小进展以可见方式提交给操作员,最好以质量顺序,这样操作员立即能知道哪个对话是最慢的。这种提交方式可以通过显示由机器和用户以文本方式最新交换的言语项目来进行,在用户的场合只要能被识别。另一提交方式是以实际交换的形式重放该言语项目,或者以它们正常的速度,或者可选高于它们的正常速度。这样做常常能暴露系统难以识别的用户言语项目。操作员可以选择一个对话,比如通过移光标到一个有关的显示区域。接着,操作员可以通过线46、48、50提交模拟用户项目到系统。如图所示,它们以键入用户回答的形式连接到有关的对话控制设备框34、36、38。另一种方式为操作员以一种为明晰起见而未显示出来的方式用语言把模拟用户言语项目提交给有关的语音识别器框31、32、33。如果操作员的这种提交有助于所处理的对话的进展,则该用户将收到一个机器言语项目,其最合于它自己的需要。在许多情况下,这将使操作员另外的干预变得多余。以相似的方式,框52可以代表两个或更多个工作站,以便每一个操作员可以独立地干预进行过慢的各自的对话。现在,用户言语项目(在本实施例中它们通常为对机器产生的问题的回答)的识别可以有不同的结果1.未收到语音这作为言语间歇处理,系统将等待一段时间。如果间歇过长,重复最后一个问题;2.未识别到有用内容;3.未识别到期待的类别,例如一个“您想乘几等车?”的问题答本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:A·J·尼曼H·奥斯特P·比斯廷M·厄德
申请(专利权)人:皇家菲利浦电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1