一种文字显示方法,包括:接收一语音信号;撷取该语音信号的基频轨迹;撷取该语音信号的能量轨迹;对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;根据每个该等字的该至少一文字显示参数将该等字整合为一字句;以及输出该字句以使该字句显示于一显示装置。
【技术实现步骤摘要】
【专利摘要】一种文字显示方法,包括:接收一语音信号;撷取该语音信号的基频轨迹;撷取该语音信号的能量轨迹;对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;根据每个该等字的该至少一文字显示参数将该等字整合为一字句;以及输出该字句以使该字句显示于一显示装置。【专利说明】文字显示方法与处理装置以及计算机程序产品
本专利技术是有关于语音输入,且特别有关于基于语音输入的文字显示技术。
技术介绍
在以声音沟通或是面对面沟通时,可以根据对方说话时的音调、音量、速度和隐含的情绪等协助理解对方所要表达的意思。但在传送短消息、电子邮件以及利用例如Microsoft Windows Messenger等IM(instant message)通讯程序进行纯文字沟通时,由于文字无法呈现讲话者的音调、音量与速度等特性,对方仅能理解文字本身而无法同时理解讲话者说话时的音调、音量、速度和情绪。
技术实现思路
有鉴于此,本专利技术提供一种文字显示方法,其根据所输入的语音的各项特征以及使用者的表情检测调整文字显示方式,以反应使用者说话时的音调、音量、速度和情绪。本专利技术一实施例提供一种文字显不方法,包括:接收一语音信号;撷取该语音信号的基频轨迹;撷取该语音信号的能量轨迹;对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;根据每个该等字的该至少一文字显示参数,将该等字整合为一字句;以及输出该字句以使该字句显示于至少一显示装置。本专利技术另一实施例提供一种处理装置,包括:一语音输入单元,接收一语音信号;一处理器,包括:一音高撷取模块,撷取该语音信号的基频轨迹;一能量计算模块,撷取该语音信号的能量轨迹;一语音识别引擎,对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;以及一文字处理模块,根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数,并根据每个该等字的该至少一文字显示参数将该等字整合为一字句;以及一文字输出单元,输出该字句以使至少一显示装置显示该字句。本专利技术再一实施例提供一种计算机程序产品,储存于一计算机可读取媒体,用以被一电子装置加载以执行一文字显示方法,其中该计算机程序产品包括:一第一程序码,用以接收一语音信号;一第二程序码,用以撷取该语音信号的基频轨迹;一第三程序码,用以撷取该语音信号的能量轨迹;一第四程序码,用以对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;一第五程序码,用以根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;以及一第六程序码,用以根据每个该等字的该至少一文字显示参数将该等字整合为一字句,并输出该字句以使该字句显示于至少一显示装置。【专利附图】【附图说明】图1所示为依据本专利技术一实施例的文字显示方法的流程图;图2所示为依据图1的实施例的语音信号处理示意图;图3a至3d所示为依据图1的实施例的文字显示的例子;图4所示为依据本专利技术一实施例的文字显示方法的流程图;图5所示为依据本专利技术一实施例的处理装置的示意图。200-语音信号;210~基频轨迹;220~能量轨迹;230~语音识别结果;50~处理装置;510~语音输入单兀;520~处理器;521~音高撷取模块;522~梅尔倒频谱模块;523~能量计算模块;524~语音识别引擎; 525~脸部识别模块;526~人脸特征撷取模块;527~表情参数模块;528~文字处理模块; 530~图像输入单元;540~文字输出单元; sl、s2、s3、s4~斜率;S100、S102、S104、…、S118、S400、S402、S404、...、S420 ~步骤;tl、t2、t3、t4、Tl、T2、T3、T4、T5、T6、T7 ~时间点;U~面积;。【具体实施方式】以下说明为本专利技术的实施例。其目的是要举例说明本专利技术一般性的原则,不应视为本专利技术的限制,本专利技术的范围当以申请专利范围所界定者为准。图1所示为依据本专利技术一实施例的文字显示方法的流程图。在步骤SlOO中,接收一语音信号,例如通过麦克风接收并录制使用者输入的语音信号。在步骤S102中,对语音信号进行基本语音处理,例如进行去除噪声、数字化等,以供后续步骤分析与运算。以图2为例,语音信号200代表所接收的语音信号经过数字化的声波波形,其中横轴为时间,纵轴为振幅。在步骤S104中,对语音信号200进行音高追踪(Pitch Tracking)以撷取该语音信号的基频轨迹(Pitch Contour),如图2中的基频轨迹210。基频轨迹210的横轴为时间,纵轴为频率,频率的单位为赫兹(Hz)。基频轨迹210记录语音信号200对应时间轴的基本频率(Fundamental Frequency),即所谓音高。在步骤S106中,撷取语音信号200的梅尔倒频谱系数(Mel-scale FrequencyCepstral Coefficients, MFCC)。在此例子中,对语音信号200撷取39维的梅尔倒频谱系数CO~C38。接着在步骤S108中,根据梅尔倒频谱系数CO~C38中的低频梅尔倒频谱系数CO计算语音信号200的能量以得到语音信号200的能量轨迹,如图2中的能量轨迹220。梅尔倒频谱系数CO是代表语音信号200的功率的函数。能量轨迹220的横轴为时间,纵轴为能量。能量轨迹220记录语音信号200对应时间轴的能量,即所谓音量。在步骤SllO中,根据梅尔倒频谱系数CO~C38对语音信号200进行语音识别(Speech Recognition)以识别出语音信号200对应的字并判断每个字的时间对齐信息(Time Alignment Information)。语音识别包括识别语音信号200哪些区段为噪音,例如图2中时间点Tl之前的语音信号200。语音识别还包括根据语音信号200的梅尔倒频谱系数CO?C38等特征值(Feature)与参考语音模型(例如声学模型和语言模型)作图像识别(PatternRecognition),以得到语音识别结果,语音识别结果可为一单字、多个单字或/和由多个单字所构成的句子,如图2中的语音识别结果230。以图2为例,经语音识别后,语音信号200的语音识别结果230由「million」、「times」、「it,S」、「from」、「Mary,sj以及「mother」的单字所组成。语音识别还包括判断语音识别结果230的每个字的时间对齐信息,也就是判断语音识别结果230的每个字的起始时间和结束时间以及每个字对应至语音信号200的区段和时间长短为何。以图2为例,时间点T2、T3、T4、T5、T6和T7即时间对齐信息,分别为「million」、「times」、「it’ S」、「from」、「Mary’ sj和「mother」的结束时间。在图2的例子中,每个字以前一个字的结束时间为自己的起始时间,例如「from」前一个字「U’ S」的结束时间为T4,所以「times」的起始时本文档来自技高网...
【技术保护点】
一种文字显示方法,包括:接收一语音信号;撷取该语音信号的基频轨迹;撷取该语音信号的能量轨迹;对该语音信号进行语音识别以识别出对应该语音信号的多个字并判断每个该等字的时间对齐信息;根据该能量轨迹、该基频轨迹以及该等时间对齐信息决定每个该等字的至少一文字显示参数;根据每个该等字的该至少一文字显示参数,将该等字整合为一字句;以及输出该字句以使该字句显示于至少一显示装置。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:黄宇辰,林哲光,
申请(专利权)人:广达电脑股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。