录音档转文字稿方法及系统技术方案

技术编号：39032030 阅读：30 留言：0更新日期：2023-10-10 11:45

一种录音档转文字稿方法及系统。此方法包括下列步骤：将录音档切分为多个音频片段；利用语音辨识模型将音频片段转换为对应的多个原始文字串；对原始文字串进行文字校正而获取多个经校正文字串；以及将经校正文字串输入至机器学习模型而产生对应的多个目标文字串，以根据目标文字串产生录音档的文字稿，其中各目标文字串具有至少一标点符号。标文字串具有至少一标点符号。标文字串具有至少一标点符号。

全部详细技术资料下载

【技术实现步骤摘要】
录音档转文字稿方法及系统

[0001]本揭露是有关于一种语音辨识技术，且特别是有关于一种录音档转文字稿方法及系统。

技术介绍

[0002]近几年来，使用线上会议已成为企业界与教育界的新常态，线上会议可以大幅节省人员的移动时间，让居于世界各地的人们可随时随地进行线上会议。但是，若企图将长达数小时的录音档整理成文字稿大多还是需要仰赖人力，这样的过程相当耗时，且无法在会后即时提供完整的会议细节纪录给与会者参考。现有绝大部分的语音辨识模型具有语音输入长度的限制，大多着重在短语句的识别，难以处理长达数小时的语音档。
[0003]此外，标点符号在中文的阅读上有相当程度的重要性，是识别讲者欲传达意涵的关键，但讲者在说话的过程当中并不会把标点符号念出来。在此情况下，语音识别技术仅能单纯将讲者说出的语句转换为不具备标点符号的文字串，如此产生的文稿让人难以阅读且不易理解讲者的欲传达意涵。

技术实现思路

[0004]有鉴于此，本专利技术提出一种录音档转文字稿方法及系统，可将冗长的录音档转换为适于阅读的文字稿。
[0005]本揭露一实施例提供一种录音档转文字稿方法。此方法包括下列步骤：将录音档切分为多个音频片段；利用语音辨识模型将音频片段转换为对应的多个原始文字串；对原始文字串进行文字校正而获取多个经校正文字串；以及将经校正文字串输入至机器学习模型而产生对应的多个目标文字串，以根据目标文字串产生录音档的文字稿，其中各目标文字串具有至少一标点符号。
[0006]本揭露一实施例提供一种录音档转文字稿系统，...

【技术保护点】

【技术特征摘要】
1.一种录音档转文字稿方法，所述方法包括下列步骤：将一录音档切分为多个音频片段；利用一语音辨识模型将所述音频片段转换为对应的多个原始文字串；对所述原始文字串进行文字校正而获取多个经校正文字串；以及将所述经校正文字串输入至一机器学习模型而产生对应的多个目标文字串，以根据所述目标文字串产生所述录音档的文字稿，其中各所述目标文字串具有至少一标点符号。2.如权利要求1所述的录音档转文字稿方法，其特征在于，将所述录音档切分为所述音频片段的步骤包括：对所述录音档的音频信号进行一平滑处理而获取平滑化音频信号；于所述平滑化音频信号中寻找振幅强度小于一阈值的多个候选切分点；以及根据一最小音频片段长度要求自所述候选切分点寻找多个目标切分点，以根据所述目标切分点将所述录音档切分为所述音频片段。3.如权利要求2所述的录音档转文字稿方法，其特征在于，对所述录音档的音频信号进行所述平滑处理而获取平滑化音频信号的步骤包括：基于一取样窗长度对所述录音档的音频信号进行统计运算而获取多笔音频运算值，而获取包括所述音频运算值的所述平滑化音频信号。4.如权利要求3所述的录音档转文字稿方法，其特征在于，于所述平滑化音频信号中寻找振幅强度小于所述阈值的所述候选切分点的步骤包括：判断所述平滑化音频信号的所述音频运算值是否小于所述阈值；以及若是，将小于所述阈值的音频运算值判定为所述候选切分点。5.如权利要求4所述的录音档转文字稿方法，其特征在于，所述阈值为对所述录音档的音频信号的振幅强度进行统计运算而决定。6.如权利...

【专利技术属性】
技术研发人员：林品铨，陈陪蓉，蔡宗宪，蔡岳洋，
申请(专利权)人：宏碁股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人