计算系统上的增强的语音再现技术方案

技术编号:38892195 阅读:30 留言:0更新日期:2023-09-22 14:16
本公开涉及一种用于基于从音频信号的声音片段识别文本片段来增强语音再现的方法。增强的文本片段由其质量指示符未达到阈值水平的任何文本片段生成,并由增强的文本片段合成增强的语音片段。基于增强的语音片段再现包括增强的声音片段的增强声音。增强的声音片段的增强声音。增强的声音片段的增强声音。

【技术实现步骤摘要】
【国外来华专利技术】计算系统上的增强的语音再现

技术介绍

[0001]本公开涉及信息
更具体来说,本专利技术涉及语音的再现。
[0002]计算系统通常用于以不同的格式输出(数字)内容。具体地,用于向计算系统的用户传达信息的最有效格式之一是语音;为此目的,大多数计算系统配备有用于再现包括来自相应音频信号的语音的声音的装置,如扬声器。
[0003]典型实例是语音呼叫或会议呼叫,其用于在电信网络上分别在对应计算系统(称为参与者)的两个或两个以上用户之间提供声音的实况交换,可能具有多媒体内容(例如视频、图像、数据、文档等)的额外共享;通常,每个语音/会议呼叫在互联网上执行(例如,通过利用VOIP技术),以便允许参与者从地理上分散的远程位置进行通信。呼叫使得可以以时间和成本有效的方式讨论共同感兴趣的主题(不需要面对面地会面,这通常将需要参与者经过很长的路程来到达共同物理位置);由于在许多办公室广泛采用智能工作,这在最后时段中变得更加重要。
[0004]每个呼叫的有效性显著地取决于对呼叫的每个参与者的语音的再现的质量(包含在由呼叫的其他参与者接收的相应声音中);语音的再现的真正完整性和保真度对于确保在呼叫中讲话的每个参与者被收听他/她的所有其他参与者理解是重要的。
[0005]然而,若干因素可能不利地影响呼叫中的语音的再现。例如,存在于每个参与者正在讲话的背景中的噪声与他/她的讲话合并成传输至其他参与者的相应声音;此噪声可能阻碍对讲话内容的理解。然后可以使用降噪技术来从声音去除(至少部分地)噪声。具体地,被动技术(如隔音房间)可以用于减少在参与者的位置处的噪声的生成;然而,这些技术非常昂贵并且在许多情况下(如在私人情境中)难以实现(如果不是不可能的话)。有源技术可用于减少所发射的声音中或所接收的声音中的噪声。例如,可应用相消干扰技术来减少说话的参与者的位置处的声音中的噪声,和/或应用滤波技术来减少收听的参与者的位置处的声音中的噪声。
[0006]在任何情况下,接收到的语音的质量可能受到用于发送相应音频信号的电信网络的性能的不利影响。实际上,电信网络的较差性能(例如,低速、高流量等)产生降低语音的质量的假象;例如,语音可变得有噪声、失真、间歇性等。

技术实现思路

[0007]在此呈现本公开的简化概述以便提供其基本理解;然而,此概述的唯一目的是以简化形式引入本公开的一些概念,作为其以下更详细描述的序言,并且不被解释为对其关键元件的识别,也不被解释为对其范围的界定。
[0008]一般而言,本公开基于从语音中识别的增强文本合成语音的想法。
[0009]具体地,实施例提供了一种用于增强语音再现的方法。所述方法包括从音频信号的声音片段识别文本片段。增强的文本片段由其质量指示符未达到阈值水平的任何文本片段生成,由增强的文本片段合成增强的语音片段。基于增强的语音片段再现包括增强的声音片段的增强声音。
[0010]另一方面提供一种用于实现该方法的计算机程序。
[0011]另一方面提供一种相应的计算机程序产品。
[0012]另一方面提供一种相应的系统。
[0013]更具体地,在独立权利要求中陈述了本公开的一个或多个方面,并且在从属权利要求中陈述其有利特征,其中所有权利要求的措辞通过引用逐字地结合于此(任何有利特征参照在必要修正后适用于每个其他方面的任何特定方面来提供)。
附图说明
[0014]参考结合附图阅读的仅以非限制性指示的方式给出的本公开的以下详细描述,将更好地理解本公开以及其进一步的特征和优势(其中,为了简单起见,对应的元件用相同或类似的附图标记表示,并且不重复它们的解释,并且每个实体的名称通常用于表示其类型和其属性,如值、内容和表示)。
[0015]图1A

图1D示出了根据本公开的实施方式的解决方案的一般原理;
[0016]图2示出其中可实施根据本公开的实施方式的解决方案的计算基础设施的示意性框图;
[0017]图3示出了可用于实施根据本公开的实施方式的解决方案的主要软件部件;以及
[0018]图4A至图4B示出了描述与根据本公开的实施方式的解决方案的实施有关的活动的流程的流程图。
具体实施方式
[0019]具体参考图1A至图1D,示出了本公开的实施方式的一般原理。
[0020]从图1A开始,计算系统的用户(参与者)可通过电信网络参与呼叫(例如,通常地理上分散以便彼此远离的多个参与者之间的会议呼叫)。在呼叫期间,参与者可以说话或听;在后一种情况下,计算系统接收音频信号(以计算系统可读的数字形式),该音频信号表示包括其他参与者在说话时的讲话的声音(即,由振动生成的压力波)(即,由社会理解的结构化系统定义的人类语言的语音通信,诸如英语)。可以从音频信号中识别文本(以人类可读的形式表示语音);该文本可以包括文本片段序列Ti,其中i=1

N(如单词和暂停),可以从声音的相应语音片段序列Si中识别该文本片段序列。同时,可以针对文本片段Ti确定对应的质量指示符Qi;质量指示符Qi可以提供对应的文本片段Ti的正确性的指示以便表示已经从中识别出该文本片段的语音片段Si。
[0021]移至图1B,根据本公开的实施方式,可从其质量指示符Qi未达到阈值水平(意味着其表示相应文本片段Ti的正确性太低)的任何文本片段Ti(在图中加下划线)中生成相应增强文本片段ETi;增强文本片段ETi可根据关于对应语音片段Si的附加信息(例如,从文本推断的语音的上下文)生成。
[0022]移动至图1C,可从增强文本片段ETi合成相应的增强语音片段ESi。
[0023]移动至图1D,可再现增强的声音。增强声音可包括声音片段Si和可基于增强语音片段ESi的增强声音片段(例如,通过将其语音与对应片段Si的背景混合而获得);具体地,可以针对其质量指示符Qi达到阈值水平的文本片段Ti再现声音片段Si,并且可以针对其质量指示符Qi未达到阈值水平的文本片段Ti再现增强的声音片段(基于增强的语音片段
ESi)。因而,增强的声音可以提供参与者的(原始)语音(当可理解时);然而,每当参与者的语音变得难以理解时,可以用再现其推断内容的相应合成语音来替换它们。
[0024]上述实施例可以显著提高呼叫的质量。实际上,以这种方式,可以去除(或至少基本上衰减)声音中的任何伪像的影响,该伪像使其具有噪声、失真、间歇性等(由于背景中添加的噪声或电信网络的性能差)。因此,参与者可以更容易地理解讲话;因此,参与者可以更简单地收听讲话并且然后集中精力到其内容,具有降低的缺失重点的风险。
[0025]提高的呼叫质量还可避免(或至少大大减少)对通过电信网络进行附加信息交换的需要(例如,重新发送不良质量或语音的完全丢失部分);这可限制对应网络资源的消耗,和电信网络性能的可能降级(对于所有网络用户具有有益效果)。
[0026]现在参考图2,示出了计算基础设施200的示意性框图,其中可以实施本公开的实施例。
[0027]计算基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于增强计算系统上的语音再现的方法,所述方法包括:由所述计算系统接收表示包括语音的声音的音频信号;由所述计算系统从所述音频信号中识别文本,所述文本包括从所述声音的对应声音片段序列识别的文本片段序列;由所述计算系统确定所述识别文本片段的对应质量指示符;由所述计算系统从其质量指示符未达到阈值水平的任何文本片段产生对应增强文本片段,所述增强文本片段是根据关于所述对应声音片段序列的附加信息而产生;由所述计算系统从所述增强文本片段合成对应的增强语音片段;以及由所述计算系统再现增强的声音,所述增强的声音包括所述对应声音片段序列和其质量指示符分别达到和未达到所述阈值水平的所述文本片段的对应的增强声音片段,所述增强声音片段基于所述对应的增强语音片段。2.根据权利要求1所述的方法,还包括:由所述计算系统根据所述语音的上下文生成所述增强文本片段。3.根据权利要求2所述的方法,还包括:由所述计算系统根据所述文本确定所述语音的所述上下文。4.根据权利要求2所述的方法,还包括:由所述计算系统根据所述语音的所述上下文选择一个或多个上下文词汇;以及由所述计算系统根据所述上下文词汇生成所述增强文本片段。5.根据权利要求1所述的方法,其中,所述声音片段和所述文本片段表示所述语音的对应单词或暂停。6.根据权利要求1所述的方法,还包括:由所述计算系统将对应的背景片段与所述声音片段隔离,所述背景片段表示与所述语音不同的背景;以及由所述计算系统通过混合所述对应的增强语音片段和背景片段来生成所述增强声音片段。7.根据权利要求6所述的方法,还包括:由所述计算系统确定所述增强文本片段的对应的其他质量指示符;由所述计算系统根据所述对应增强文本片段的所述其他质量指示符设置所述混合对应增强语音片段和背景片段的对应混合程度;以及由所述计算系统通过根据所述对应的混合程度混合所述对应的增强语音片段和背景片段来生成所述增强声音片段。8.根据权利要求7所述的方法,还包括:由所述计算系统进一步基于所述对应混合程度的趋势来设置所述对应混合程度。9.根据权利要求1所述的方法,还包括:由所述计算系统根据所述从所述音频信号识别所述文本的当前质量、质量趋势或迭代次数中的至少一者来确定所述质量指示符。10.根据权利要求1所述的方法,还包括:由所述计算系统接收表示包含所述声音的多媒体内容的多媒体信号;以及由所述计算系统将所述音频信号与所述多媒体信号隔离。
11.根据权利要求1所述的方法,还包括:由所述计算系统通过电信网络以流传输的方式接收所述音频信号。12.根据权利要求11所述的方法,还包括:在通过所述电信网络的呼叫期间,由所述计算系统接收所述音频信号。13.一种用于增强语音再现的计算机程序产品,所述计算机程序产品包括具有程序指令的一个或多个计算机可读存...

【专利技术属性】
技术研发人员:S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1