一种双语字幕制作方法及系统技术方案

技术编号:14449056 阅读:78 留言:0更新日期:2017-01-18 09:44
本发明专利技术适用计算机技术领域,提供了一种双语字幕制作方法及系统,所述方法包括:接收用户输入的音视频文件,提取音视频文件中的音频,将音频分割为多个音频段,记录每个音频段的时间信息,对多个音频段进行语音识别,生成属于第一语种的字幕文本,将属于第一语种的字幕文本翻译为属于第二语种的字幕文本,根据时间信息,输出属于第一语种的字幕文本和属于第二语种的字幕文本。本发明专利技术实现了在无文本稿条件下为无字幕音视频自动添加双语字幕,解决现有技术下双语字幕制作效率低、耗时长、耗费人力的问题,并且降低双语字幕的制作成本。

【技术实现步骤摘要】

本专利技术属于计算机
,尤其涉及一种双语字幕制作方法及系统。
技术介绍
随着网络视频技术的发展,音乐、电台等音频节目以及电视剧、电影、综艺、网络直播等视频节目成为人们业余生活必不可少的部分,其中来自韩国、日本、美国的电视剧、电影、综艺等节目备受欢迎。人们既要欣赏这些原汁原味的音视频节目,又要很好地理解这些节目的语言意思,就离不开双语字幕的帮助。然而,现有的双语字幕制作技术是通过字幕人员听音频记录字幕文本,人工翻译,使用字幕制作软件,手动添加时间轴,才得到最后的字幕文件。双语字幕制作的现有技术存在效率低、耗时长、耗费人力的缺点,无法满足用户随时为无字幕视频生成字幕的需求。
技术实现思路
本专利技术的目的在于提供一种双语字幕制作方法及系统,旨在解决由于现有技术无法提供一种高效的双语字幕制作方法,导致双语字幕制作效率低、耗费时间和人力。一方面,本专利技术提供了一种双语字幕制作方法,所述方法包括下述步骤:接收用户输入的音视频文件,提取所述音视频文件中的音频;将所述音频分割为多个音频段,记录每个音频段的时间信息;对所述多个音频段进行语音识别,生成属于第一语种的字幕文本;将所述属于第一语种的字幕文本翻译为属于第二语种的字幕文本;根据所述时间信息,输出所述属于第一语种的字幕文本和属于第二语种的字幕文本。另一方面,本专利技术提供了一种双语字幕制作系统,所述系统包括:音频获取单元,用于接收用户输入的音视频文件,提取所述音视频文件中的音频;音频分割单元,用于将所述音频分割为多个音频段,记录每个音频段的时间信息;语音识别单元,用于对所述多个音频段进行语音识别,生成属于第一语种的字幕文本;文本翻译单元,用于将所述属于第一语种的字幕文本翻译为属于第二语种的字幕文本;以及双语字幕生成单元,用于根据所述时间信息,输出所述属于第一语种的字幕文本和属于第二语种的字幕文本。本专利技术在接收用户输入的音视频文件后,提取音视频文件中的音频,将音频分割为多个音频段,记录每个音频段的时间信息,对多个音频段进行语音识别,生成属于第一语种的字幕文本,将属于第一语种的字幕文本翻译为属于第二语种的字幕文本,根据时间信息,输出属于第一语种的字幕文本和属于第二语种的字幕文本,从而提高了双语字幕的生成效率,降低了双语字幕的制作成本,实现为无字幕视频自动、快速地提供双语字幕。附图说明图1是本专利技术实施例一提供的双语字幕制作方法的实现流程图;图2是本专利技术实施例二提供的双语字幕制作方法中将音频分割为多个音频段,记录每个音频段的时间信息步骤的实现流程图;图3是本专利技术实施例三提供的双语字幕制作方法中对多个音频段进行语音识别,生成属于第一语种的字幕文本步骤的实现流程图;图4是本专利技术实施例四提供的双语字幕制作方法中将属于第一语种的字幕文本翻译为属于第二语种的字幕文本的步骤的实现流程图;图5是本专利技术实施例五提供的双语字幕制作系统的结构图;以及图6是本专利技术实施例六提供的双语字幕制作系统的结构图;具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合具体实施例对本专利技术的具体实现进行详细描述:实施例一:图1示出了本专利技术实施例一提供的双语字幕制作方法的实现流程,为了便于说明,仅示出了与本专利技术实施例相关的部分,详述如下:在步骤S101中,接收用户输入的音视频文件,提取音视频文件中的音频。本专利技术实施例适用于支持音视频播放的计算机、智能手机等音视频播放设备,其中,音视频文件为无字幕的音频或者视频,当音视频文件为视频文件时,需分离出该视频文件的音频流,将音频流保存为音频文件,方便后续的分割和识别操作。优选地,提取出音视频文件中的音频后可对该音频进行预处理,预处理方式包括音频信号去噪、分贝值设置等,以去除音频中的噪音干扰和弱化背景音,从而使得音频中的发音更为清晰,得到更适于语音识别的音频。在步骤S102中,将音频分割为多个音频段,记录每个音频段的时间信息。在本专利技术实施例中,预先设定语音停顿时间间隔阈值和播放该音频的音视频播放设备的显示屏幕的宽度阈值,依据这两个阈值对音频进行分割,具体分割方法如实施例二所述,在此不再赘述。分割后得到多个音频段,其中,每个音频段的时间信息包括播放整段音频时该音频段的开始时间和结束时间,开始时间和结束时间用于计算每个音频段的持续时间间隔以及用于制作字幕文本的时间轴。在步骤S103中,对多个音频段进行语音识别,生成属于第一语种的字幕文本。在本专利技术实施例中,根据音频段对应的语音特征,识别出每个音频段对应的字幕段,进而得到以第一语种表示的字幕文本,在这里第一语种即为音频段的原有语种。在步骤S104中,将属于第一语种的字幕文本翻译为属于第二语种的字幕文本。在本专利技术实施例中,预先设定双字幕中另一字幕所属语种,为了便于描述,在这里将该语种称为第二语种。在得到属于第一语种的字幕文本后,可通过能够实现多语言互译的翻译程序或系统,将第一语种的字幕文本翻译为第二语种的字幕文本。在步骤S105中,根据时间信息,输出属于第一语种的字幕文本和属于第二语种的字幕文本。在本专利技术实施例中,时间信息是指每个音频段的时间信息,可包括每个音频段在完整音频播放过程中对应的开始时间和结束时间,根据开始时间和结束时间,分别为属于第一语种的字幕文本和属于第二语种的字幕文本建立时间轴,时间轴用于字幕显示和视频播放两者间的校准,根据属于第一语种的字幕文本和属于第二语种的字幕文本的时间轴的对应关系,同步输出两种语种的字幕内容,最终得到双语字幕,从而实现双语字幕的自动生成或制作,提高了双语字幕的制作效率。实施例二:图2示出了本专利技术实施例二提供的双语字幕制作方法中将音频分割为多个音频段,记录每个音频段的时间信息的实现流程,为了便于说明,仅示出了与本专利技术实施例相关的部分,详述如下:在步骤S201中,根据音频的语音停顿,对音频进行初步分割。在本专利技术实施例中,预先设定用于分割音频的语音停顿时间间隔阈值。由于人进行说话时通常在两句话之间会有短暂的停顿,因此,可检测音频中语音停顿处或者静音处,计算停顿或静音持续的时间间隔,当该时间间隔大于预先设定的语音停顿时间间隔阈值时,对音频分割。从而实现依据语音停顿对音频进行分割的操作,可有效提高后续对音频段进行语音识别的准确率。在步骤S202中,根据显示屏幕的宽度,对初步分割后的音频进行二次分割和合并,以得到多个音频段,并记录每个音频端的时间信息。在本专利技术实施例中,音频经初步分割后得到持续时间间隔长短不一的音频段。有些持续时间间隔过长的音频段超出播放该视频的音视频显示设备的显示屏幕的宽度,无法完整显示。有些持续时间间隔过短的音频段单独显示时播放时间太短而不利于观看。因此,可预先设置播放该音频的音视频播放设备的显示屏幕的宽度阈值,根据显示屏幕的宽度阈值设置最长音频时间间隔阈值和最短音频时间间隔阈值。遍历初步分割后得到的音频段,对持续时间间隔大于最长音频时间间隔阈值的音频段进行二次分割,为避免二次分割后得到持续时间间隔小于最短音频时间间隔的音频段,二次分割可采用平均分割的方法。对初步分割后持续时间间隔小于最短音频时间间隔阈值的音频段,查询该音频段相邻音频段的持续时本文档来自技高网...

【技术保护点】
一种双语字幕制作方法,其特征在于,所述方法包括下述步骤:接收用户输入的音视频文件,提取所述音视频文件中的音频;将所述音频分割为多个音频段,记录每个音频段的时间信息;对所述多个音频段进行语音识别,生成属于第一语种的字幕文本;将所述属于第一语种的字幕文本翻译为属于第二语种的字幕文本;根据所述时间信息,输出所述属于第一语种的字幕文本和属于第二语种的字幕文本。

【技术特征摘要】
1.一种双语字幕制作方法,其特征在于,所述方法包括下述步骤:接收用户输入的音视频文件,提取所述音视频文件中的音频;将所述音频分割为多个音频段,记录每个音频段的时间信息;对所述多个音频段进行语音识别,生成属于第一语种的字幕文本;将所述属于第一语种的字幕文本翻译为属于第二语种的字幕文本;根据所述时间信息,输出所述属于第一语种的字幕文本和属于第二语种的字幕文本。2.如权利要求1所述的方法,其特征在于,将所述音频分割为多个音频段,记录每个音频段的时间信息的步骤,包括:根据所述音频的语音停顿,对所述音频进行初步分割;根据显示屏幕的宽度,对初步分割后的所述音频进行二次分割和合并,以得到所述多个音频段,并记录每个音频段的时间信息。3.如权利要求1所述的方法,其特征在于,对所述多个音频段进行语音识别,生成属于第一语种的字幕文本的步骤,包括:在预先构建的高频语音识别库中对待识别的音频段进行匹配;当对所述待识别的音频段匹配成功时,获取所述待识别的音频段对应的属于第一语种的字幕文本。4.如权利要求1所述的方法,其特征在于,将所述属于第一语种的字幕文本翻译为属于第二语种的字幕文本的步骤,包括:将所述属于第一语种的字幕文本划分为多个文本段;在预先构建的高频词翻译库中对待翻译的文本段进行匹配;当对所述待翻译的文本段匹配成功时,获取所述待翻译的文本段对应的属于第二语种的字幕文本。5.如权利要求1所述的方法,其特征在于,根据所述时间信息,输出所述属于第一语种的字幕文本和属于第二语种的字幕文本的步骤,包括:根据所述时间信息构建所述属于第一语种的字幕文本的第一时间轴、属于第二语种的字幕文本的第二时间轴;根据所述第一时间轴和所述第二时间轴的对应关系,同步输出所述属于第一语种的字幕文本和属于第二语种的字幕文本,以得到双语字幕。6.一种双语字幕制作系统,其特征在于,所...

【专利技术属性】
技术研发人员:王金龙丁小响
申请(专利权)人:广东小天才科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1