计算系统上的增强的语音再现技术方案

技术编号：38892195 阅读：30 留言：0更新日期：2023-09-22 14:16

本公开涉及一种用于基于从音频信号的声音片段识别文本片段来增强语音再现的方法。增强的文本片段由其质量指示符未达到阈值水平的任何文本片段生成，并由增强的文本片段合成增强的语音片段。基于增强的语音片段再现包括增强的声音片段的增强声音。增强的声音片段的增强声音。增强的声音片段的增强声音。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】计算系统上的增强的语音再现

技术介绍

[0001]本公开涉及信息
更具体来说，本专利技术涉及语音的再现。
[0002]计算系统通常用于以不同的格式输出(数字)内容。具体地，用于向计算系统的用户传达信息的最有效格式之一是语音；为此目的，大多数计算系统配备有用于再现包括来自相应音频信号的语音的声音的装置，如扬声器。
[0003]典型实例是语音呼叫或会议呼叫，其用于在电信网络上分别在对应计算系统(称为参与者)的两个或两个以上用户之间提供声音的实况交换，可能具有多媒体内容(例如视频、图像、数据、文档等)的额外共享；通常，每个语音/会议呼叫在互联网上执行(例如，通过利用VOIP技术)，以便允许参与者从地理上分散的远程位置进行通信。呼叫使得可以以时间和成本有效的方式讨论共同感兴趣的主题(不需要面对面地会面，这通常将需要参与者经过很长的路程来到达共同物理位置)；由于在许多办公室广泛采用智能工作，这在最后时段中变得更加重要。
[0004]每个呼叫的有效性显著地取决于对呼叫的每个参与者的语音的再现的质量(包含在由呼叫的其他参与者接收的相应声音中)；语音的再现的真正完整性和保真度对于确保在呼叫中讲话的每个参与者被收听他/她的所有其他参与者理解是重要的。
[0005]然而，若干因素可能不利地影响呼叫中的语音的再现。例如，存在于每个参与者正在讲话的背景中的噪声与他/她的讲话合并成传输至其他参与者的相应声音；此噪声可能阻碍对讲话内容的理解。然后可以使用降噪技术来从声音去除(至少部分地)噪声。具体地，被动技术(如隔音房间)可以用于...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于增强计算系统上的语音再现的方法，所述方法包括：由所述计算系统接收表示包括语音的声音的音频信号；由所述计算系统从所述音频信号中识别文本，所述文本包括从所述声音的对应声音片段序列识别的文本片段序列；由所述计算系统确定所述识别文本片段的对应质量指示符；由所述计算系统从其质量指示符未达到阈值水平的任何文本片段产生对应增强文本片段，所述增强文本片段是根据关于所述对应声音片段序列的附加信息而产生；由所述计算系统从所述增强文本片段合成对应的增强语音片段；以及由所述计算系统再现增强的声音，所述增强的声音包括所述对应声音片段序列和其质量指示符分别达到和未达到所述阈值水平的所述文本片段的对应的增强声音片段，所述增强声音片段基于所述对应的增强语音片段。2.根据权利要求1所述的方法，还包括：由所述计算系统根据所述语音的上下文生成所述增强文本片段。3.根据权利要求2所述的方法，还包括：由所述计算系统根据所述文本确定所述语音的所述上下文。4.根据权利要求2所述的方法，还包括：由所述计算系统根据所述语音的所述上下文选择一个或多个上下文词汇；以及由所述计算系统根据所述上下文词汇生成所述增强文本片段。5.根据权利要求1所述的方法，其中，所述声音片段和所述文本片段表示所述语音的对应单词或暂停。6.根据权利要求1所述的方法，还包括：由所述计算系统将对应的背景片段与所述声音片段隔离，所述背景片段表示与所述语音不同的背景；以及由所述计算系统通过混合所述对应的增强语音片段和背景片段来生成所述增强声音片段。7.根据权利要求6所述的方法，还包括：由所述计算系统确定所述增强文本片段的对应的其他质量指示符；由所述计算系统根据所述对应增强文本片段的所述其他质量指示符设置所述混合对应增强语音片段和背景片段的对应混合程度；以及由所述计算系统通过根据所述对应的混合程度混合所述对应的增强语音片段和背景片段来生成所述增强声音片段。8.根据权利要求7所述的方法，还包括：由所述计算系统进一步基于所述对应混合程度的趋势来设置所述对应混合程度。9.根据权利要求1所述的方法，还包括：由所述计算系统根据所述从所述音频信号识别所述文本的当前质量、质量趋势或迭代次数中的至少一者来确定所述质量指示符。10.根据权利要求1所述的方法，还包括：由所述计算系统接收表示包含所述声音的多媒体内容的多媒体信号；以及由所述计算系统将所述音频信号与所述多媒体信号隔离。
11.根据权利要求1所述的方法，还包括：由所述计算系统通过电信网络以流传输的方式接收所述音频信号。12.根据权利要求11所述的方法，还包括：在通过所述电信网络的呼叫期间，由所述计算系统接收所述音频信号。13.一种用于增强语音再现的计算机程序产品，所述计算机程序产品包括具有程序指令的一个或多个计算机可读存...

【专利技术属性】
技术研发人员：S，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人