录音档转文字稿方法及系统技术方案

技术编号:39032030 阅读:17 留言:0更新日期:2023-10-10 11:45
一种录音档转文字稿方法及系统。此方法包括下列步骤:将录音档切分为多个音频片段;利用语音辨识模型将音频片段转换为对应的多个原始文字串;对原始文字串进行文字校正而获取多个经校正文字串;以及将经校正文字串输入至机器学习模型而产生对应的多个目标文字串,以根据目标文字串产生录音档的文字稿,其中各目标文字串具有至少一标点符号。标文字串具有至少一标点符号。标文字串具有至少一标点符号。

【技术实现步骤摘要】
录音档转文字稿方法及系统


[0001]本揭露是有关于一种语音辨识技术,且特别是有关于一种录音档转文字稿方法及系统。

技术介绍

[0002]近几年来,使用线上会议已成为企业界与教育界的新常态,线上会议可以大幅节省人员的移动时间,让居于世界各地的人们可随时随地进行线上会议。但是,若企图将长达数小时的录音档整理成文字稿大多还是需要仰赖人力,这样的过程相当耗时,且无法在会后即时提供完整的会议细节纪录给与会者参考。现有绝大部分的语音辨识模型具有语音输入长度的限制,大多着重在短语句的识别,难以处理长达数小时的语音档。
[0003]此外,标点符号在中文的阅读上有相当程度的重要性,是识别讲者欲传达意涵的关键,但讲者在说话的过程当中并不会把标点符号念出来。在此情况下,语音识别技术仅能单纯将讲者说出的语句转换为不具备标点符号的文字串,如此产生的文稿让人难以阅读且不易理解讲者的欲传达意涵。

技术实现思路

[0004]有鉴于此,本专利技术提出一种录音档转文字稿方法及系统,可将冗长的录音档转换为适于阅读的文字稿。
[0005]本揭露一实施例提供一种录音档转文字稿方法。此方法包括下列步骤:将录音档切分为多个音频片段;利用语音辨识模型将音频片段转换为对应的多个原始文字串;对原始文字串进行文字校正而获取多个经校正文字串;以及将经校正文字串输入至机器学习模型而产生对应的多个目标文字串,以根据目标文字串产生录音档的文字稿,其中各目标文字串具有至少一标点符号。
[0006]本揭露一实施例提供一种录音档转文字稿系统,其包括储存装置及处理器。储存装置耦接处理器,并记录有多个指令。处理器经配置执行前述指令以:将录音档切分为多个音频片段;利用语音辨识模型将音频片段转换为对应的多个原始文字串;对原始文字串进行文字校正而获取多个经校正文字串;以及将经校正文字串输入至机器学习模型而产生对应的多个目标文字串,以根据目标文字串产生录音档的文字稿,其中各目标文字串具有至少一标点符号。
[0007]为让本揭露能更明显易懂,下文特举实施例,并配合附图作详细说明如下:
附图说明
[0008]图1是根据本专利技术一实施例所绘示的录音档转文字稿系统的方块图。
[0009]图2是依照本专利技术一实施例所绘示的录音档转文字稿方法的流程图。
[0010]图3是依照本专利技术一实施例所绘示的音频切割的流程图。
[0011]图4是依照本专利技术一实施例所绘示的音频切割的范例。
[0012]图5是依照本专利技术一实施例所绘示的加入标点符号的范例。
[0013]图6A至图6C是依照本专利技术一实施例所绘示的BART模型的范例。
[0014]其中:
[0015]10:录音档转文字稿系统;
[0016]110:储存装置;
[0017]120:处理器;
[0018]Au1:音频信号;
[0019]CP1~CP4:候选切分点;
[0020]TP1~TP3:目标切分点;
[0021]Seg1~Seg3:音频片段;
[0022]Z1:低强度区段;
[0023]50:Seq2Seq:模型;
[0024]CStr_1~CStr_N:经校正文字串;
[0025]TStr_1~TStr_N:目标文字串;
[0026]61:编码器;
[0027]62:解码器;
[0028]v1:代表向量;
[0029]S210~S240,S301~S303:步骤。
具体实施方式
[0030]本专利技术的部份实施例接下来将会配合附图来详细描述,以下的描述所引用的元件符号,当不同附图出现相同的元件符号将视为相同或相似的元件。这些实施例只是本专利技术的一部份,并未揭示所有本专利技术的可实施方式。更确切的说,这些实施例只是本专利技术的权利要求书中的系统与方法的范例。
[0031]图1是根据本专利技术一实施例所绘示的录音档转文字稿系统的方块图。请参照图1,本专利技术实施例的录音档转文字稿系统10包括储存装置110与处理器120。储存装置110耦接处理器120。录音档转文字稿系统10可实作成具有运算能力的笔记型电脑、台式电脑、服务器、工作站等计算机装置。
[0032]储存装置110用以储存资料与供处理器120存取的软件模块(例如操作系统、应用程序、驱动程序)等资料,其可以例如是任意型式的固定式或可移动式随机存取内存(random access memory,RAM)、只读内存(read

only memory,ROM)、快闪内存(flash memory)、硬盘或其组合。
[0033]处理器120例如是中央处理单元(central processing unit,CPU)、应用处理器(application processor,AP),或是其他可编程之一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(digital signal processor,DSP)、影像信号处理器(image signal processor,ISP)、图形处理器(graphics processing unit,GPU)或其他类似装置、集成电路及其组合。处理器120可存取并执行记录在储存装置110中的软件模块,以实现本专利技术实施例中的录音档转文字稿方法。上述软件模块可广泛地解释为意谓指令、指令集、代码、程序码、程序、应用程序、软件套件、执行绪、程序、功能等,而不管其是被称作软
件、固件、中间软件、微码、硬件描述语言亦或其他者。
[0034]详细而言,图2是依照本专利技术一实施例所绘示的录音档转文字稿方法的流程图。请同时参照图1及图2,本实施例的方法适用于上述的录音档转文字稿系统10。以下即搭配录音档转文字稿系统10的各项元件说明本实施例的录音档转文字稿方法的详细步骤。
[0035]需说明的是,于一些实施例中,当处理器120执行一线上会议,处理器120可对线上会议进行录音而获取一录音档。处理器120可以利用线上会议软件内建的录音功能对线上会议进行录音。或者,处理器120也可利用Windows操作系统内建的音频录制软件对线上会议进行录音。于其他实施例中,处理器120可经由网络接口或任何资料传输接口接收其他电子装置传递而来的录音档。于一些实施例中,录音档可以是线上会议或线上教学的录音档,但本专利技术不限制于此。
[0036]在步骤S210中,由处理器120将录音档切分为多个音频片段。换言之,录音档的时域音频信号会被处理器120切割成多个音频片段。基于人类说话时需要换气的需求,且换气的时机点大多落在句子与句子之间,处理器120可根据录音档的音频信号的振幅强度将录音档切分为多个音频片段。
[0037]举例而言,图3是依照本专利技术一实施例所绘示的音频切割的流程图。请参照图3,于步骤S301,由处理器120对录音档的音频信号进行一平滑处理而获取平滑化音频信号。
[0038]详细而言,于一些实施例中,由于录音档的音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种录音档转文字稿方法,所述方法包括下列步骤:将一录音档切分为多个音频片段;利用一语音辨识模型将所述音频片段转换为对应的多个原始文字串;对所述原始文字串进行文字校正而获取多个经校正文字串;以及将所述经校正文字串输入至一机器学习模型而产生对应的多个目标文字串,以根据所述目标文字串产生所述录音档的文字稿,其中各所述目标文字串具有至少一标点符号。2.如权利要求1所述的录音档转文字稿方法,其特征在于,将所述录音档切分为所述音频片段的步骤包括:对所述录音档的音频信号进行一平滑处理而获取平滑化音频信号;于所述平滑化音频信号中寻找振幅强度小于一阈值的多个候选切分点;以及根据一最小音频片段长度要求自所述候选切分点寻找多个目标切分点,以根据所述目标切分点将所述录音档切分为所述音频片段。3.如权利要求2所述的录音档转文字稿方法,其特征在于,对所述录音档的音频信号进行所述平滑处理而获取平滑化音频信号的步骤包括:基于一取样窗长度对所述录音档的音频信号进行统计运算而获取多笔音频运算值,而获取包括所述音频运算值的所述平滑化音频信号。4.如权利要求3所述的录音档转文字稿方法,其特征在于,于所述平滑化音频信号中寻找振幅强度小于所述阈值的所述候选切分点的步骤包括:判断所述平滑化音频信号的所述音频运算值是否小于所述阈值;以及若是,将小于所述阈值的音频运算值判定为所述候选切分点。5.如权利要求4所述的录音档转文字稿方法,其特征在于,所述阈值为对所述录音档的音频信号的振幅强度进行统计运算而决定。6.如权利...

【专利技术属性】
技术研发人员:林品铨陈陪蓉蔡宗宪蔡岳洋
申请(专利权)人:宏碁股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1