语音转写方法、装置和电子设备制造方法及图纸

技术编号:26224648 阅读:19 留言:0更新日期:2020-11-04 10:59
本公开实施例公开了一种语音转写方法、装置、电子设备和计算机可读存储介质。其中该语音转写方法包括:采集声音信号;从所述声音信号中分离出至少一个角色语音信号;将所述至少一个角色语音信号转写成文字;以至少一种展示方式展示所述文字。上述方法通过分离语音信号以及将语音信号转写成文字,解决了现有技术中记录语音内容的方案中所存在的检索不便、不稳定、不准确等技术问题。

【技术实现步骤摘要】
语音转写方法、装置和电子设备
本公开涉及语音识别领域,尤其涉及一种语音转写方法、装置、电子设备及计算机可读存储介质。
技术介绍
作为一种人机交互的手段,语音识别的获取技术在解放人类双手方面意义重大。越来越多的智能设备加入了语音识别的潮流,成为人与设备沟通的桥梁,因此语音识别技术愈发显得重要。语音是最自然的沟通方式,很多场合都是通过语音沟通,比如:电话,演讲,看病,庭审,会议等等。这些沟通的内容需要记录,通常使用录制音频或者人工打字的方式来记录沟通内容。但是音频记录不方便检索查询,不能快速定位到需要定位的内容上;而通过书记员打字来快速记录语音沟通的内容,受制于打字速度,有时候语音速度过快,可能会遗漏部分重要的内容,并且也受书记员的状态的影响。因此亟需能够自动、稳定、准确的将语音转换成文字的方案。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。第一方面,本公开实施例提供一种语音转写方法,包括:采集声音信号;从所述声音信号中分离出至少一个角色语音信号;将所述至少一个角色语音信号转写成文字;以至少一种展示方式展示所述文字。进一步的,所述从所述声音信号中分离出至少一个角色语音信号,包括:将多通道的声音信号转换为多个单通道声音信号;从所述多个单通道声音信号中确定至少一个单通道语音信号;根据所述至少一个单通道语音信号确定至少一个角色语音信号。进一步的,所述从所述多个单通道声音信号中确定至少一个单通道语音信号,包括:将所述多个单通道声音信号中的每一个单通道声音信号输入深度学习模型得到至少一个单通道语音信号。进一步的,所述根据所述至少一个单通道语音信号确定至少一个角色语音信号,包括:计算所述至少一个单通道语音信号之间的相似度;将相似度高于相似阈值的多个单通道语音信号识别为同一个角色语音信号;将相似度低于相似阈值的多个单通道语音信号识别为不同的角色语音信号。进一步的,所述将所述至少一个角色语音信号转写成文字,包括:抽取所述至少一个角色语音信号的语音特征;将所述语音特征输入语音识别模型得到所述至少一个角色语音信号所对应的文字。进一步的,所述以至少一种展示方式展示所述文字,包括:在实时展示区域展示所述文字;和/或,在历史展示区域展示所述文字之前所转写的文字;和/或在信息展示区域为已展示的信息添加以所述文字所组成的字幕。进一步的,所述方法还包括:获取所述文字所对应的文本;将所述文本输入摘要生成模型以生成所述文本的摘要。进一步的,所述方法还包括:接收角色语音信号的选择信号;突出显示所述角色语音信号所对应的文字。进一步的,所述方法还包括:接收所述文字的选择信号;突出显示所述文字所对应的角色语音信号。第二方面,本公开实施例提供一种语音转写装置,包括:采集模块,用于采集声音信号;语音分离模块,用于从所述声音信号中分离出至少一个角色语音信号;转写模块,用于将所述至少一个角色语音信号转写成文字;展示模块,用于以至少一种展示方式展示所述文字。进一步的,所述语音分离模块,还用于:将多通道的声音信号转换为多个单通道声音信号;从所述多个单通道声音信号中确定至少一个单通道语音信号;根据所述至少一个单通道语音信号确定至少一个角色语音信号。进一步的,所述语音分离模块,还用于:将所述多个单通道声音信号中的每一个单通道声音信号输入深度学习模型得到至少一个单通道语音信号。进一步的,所述语音分离模块,还用于:计算所述至少一个单通道语音信号之间的相似度;将相似度高于相似阈值的多个单通道语音信号识别为同一个角色语音信号;将相似度低于相似阈值的多个单通道语音信号识别为不同的角色语音信号。进一步的,所述转写模块,还用于:抽取所述至少一个角色语音信号的语音特征;将所述语音特征输入语音识别模型得到所述至少一个角色语音信号所对应的文字。进一步的,所述展示模块,还用于:在实时展示区域展示所述文字;和/或,在历史展示区域展示所述文字之前所转写的文字;和/或在信息展示区域为已展示的信息添加以所述文字所组成的字幕。进一步的,所述语音转写装置,还包括:摘要生成模块,用于获取所述文字所对应的文本;将所述文本输入摘要生成模型以生成所述文本的摘要。进一步的,所述语音转写装置,还包括:第一校对模块,用于接收角色语音信号的选择信号;突出显示所述角色语音信号所对应的文字。进一步的,所述语音转写装置,还包括:第二校对模块,用于接收所述文字的选择信号;突出显示所述文字所对应的角色语音信号。第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面中的任一所述方法。第四方面,本公开实施例提供一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行前述第一方面中的任一所述方法。本公开实施例公开了一种语音转写方法、装置、电子设备和计算机可读存储介质。其中该语音转写方法包括:采集声音信号;从所述声音信号中分离出至少一个角色语音信号;将所述至少一个角色语音信号转写成文字;以至少一种展示方式展示所述文字。上述方法通过分离语音信号以及将语音信号转写成文字,解决了现有技术中记录语音内容的方案中所存在的检索不便、不稳定、不准确等技术问题。上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。图1为本公开实施例的应用场景示意图;图2为本公开实施例提供的语音转写方法的流程示意图;图3为本公开实施例提供的语音转写方法中分离角色语音信号的具体实现方式的示意图;图4为本公开实施例提供的语音转写方法中分离角色语音信号的具体实现方式的进一步示意图;图5为本公开实施例提供的语音转写装置的实施例的结构示意图图6为根据本公开实施例提供的电子设备的结构示意本文档来自技高网...

【技术保护点】
1.一种语音转写方法,其特征在于,包括:/n采集声音信号;/n从所述声音信号中分离出至少一个角色语音信号;/n将所述至少一个角色语音信号转写成文字;/n以至少一种展示方式展示所述文字。/n

【技术特征摘要】
1.一种语音转写方法,其特征在于,包括:
采集声音信号;
从所述声音信号中分离出至少一个角色语音信号;
将所述至少一个角色语音信号转写成文字;
以至少一种展示方式展示所述文字。


2.如权利要求1所述的语音转写方法,其特征在于,所述从所述声音信号中分离出至少一个角色语音信号,包括:
将多通道的声音信号转换为多个单通道声音信号;
从所述多个单通道声音信号中确定至少一个单通道语音信号;
根据所述至少一个单通道语音信号确定至少一个角色语音信号。


3.如权利要求2所述的语音转写方法,其特征在于,所述从所述多个单通道声音信号中确定至少一个单通道语音信号,包括:
将所述多个单通道声音信号中的每一个单通道声音信号输入深度学习模型得到至少一个单通道语音信号。


4.如权利要求2所述的语音转写方法,其特征在于,所述根据所述至少一个单通道语音信号确定至少一个角色语音信号,包括:
计算所述至少一个单通道语音信号之间的相似度;
将相似度高于相似阈值的多个单通道语音信号识别为同一个角色语音信号;
将相似度低于相似阈值的多个单通道语音信号识别为不同的角色语音信号。


5.如权利要求1所述的语音转写方法,其特征在于,所述将所述至少一个角色语音信号转写成文字,包括:
抽取所述至少一个角色语音信号的语音特征;
将所述语音特征输入语音识别模型得到所述至少一个角色语音信号所对应的文字。


6.如权利要求1所述的语音转写方法,其...

【专利技术属性】
技术研发人员:陈孝良苏少炜张国超常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1