一种音频播放延迟AI修正方法和装置制造方法及图纸

技术编号:28298197 阅读:17 留言:0更新日期:2021-04-30 16:24
本发明专利技术涉及一种安卓移动端设备音频播放延迟的AI修正方法,包括:控制音频芯片在预定的时间间隔测量传入的模拟音频流信号;将上述模拟音频流信号转换为数字音频流信号后输入缓冲区;其中缓冲区的大小随着不同总线设置而不同;监控缓冲区的数据量,使用基于机器学习的神经网络,基于缓冲区中的数据量动态调整音频参数;修正并播放音频。

【技术实现步骤摘要】
一种音频播放延迟AI修正方法和装置
本专利技术涉及语音信号处理
,特别涉及一种安卓移动端设备音频播放延迟AI修正方法和装置。
技术介绍
声音延迟可以被定义为“信号通过系统的时间”。在移动设备中,声音延迟关系到用户点击屏幕后多久可以接收到声音的反馈。如果声音延迟太久,会让用户感觉到卡顿感,技术画面很顺滑声音慢了一样让人感到很不愉悦。低延迟在各个应用场景中带来的问题主要有:乐器应用和音效应用:音频家无法在舞台上演奏,使用Android设备的演奏者总比其它人慢半拍。甚至无法用于练习。DJ无法进行节拍匹配,因为他们在耳机听到的信号要远远落后于播放给听众的主信号。使用循环滚动或回声等效果也是非常困难的。游戏、声音效果,例如爆炸和枪声会卡顿延迟几帧,使游戏音频“超脱”于视觉效果,这种糟糕的用户感受,无法带来身临其境的游戏体验。VoIP应用,如Skype:如果用户使用的是Android手机,整体的音频延迟要高于网络延迟。也就是说,通过安卓系统所花费的时间比数据包在各大洲之间传输的时间要更长。虚拟现实VR:当用户转头,音频“跟随”变化太晚,破坏了三维音频的体验。去试试PaulMcCartney的Google纸板眼镜的app就是一个例子。Google将会在虚拟现实领域将十亿美元的收入拱手让给苹果。可见,低声音延迟已经是现代操作系统中不可或缺的基础功能,但是在Android设备上,由于各个厂家制定的标准不统一,采用的硬件方案不同,所以延迟问题十分突出。
技术实现思路
鉴于上述的分析,本专利技术旨在提供一种安卓移动端设备音频播放延迟AI修正方法和装置。其提供一种克服上述问题或者至少部分地解决上述问题的方法、装置。根据本专利技术的一个方面,提供了一种安卓移动端设备音频播放延迟的AI修正方法,控制音频芯片在预定的时间间隔测量传入的模拟音频流信号;将上述模拟音频流信号转换为数字音频流信号后输入缓冲区,其中缓冲区的大小根据总线类型设置;监控缓冲区的数据量,将当前的音频参数输入基于机器学习的神经网络,得到根据缓冲区中的数据量而产生的动态音频参数;根据所述动态音频参数修正并播放音频。可选地,其中所述音频参数包括采样率,声道和比特率。可选地,动态调整音频参数位于音频硬件抽象层(HAL)。可选地,其中在AudioFlinger层建立通道,如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列,此时则不会进行重采样,也不会对缓冲区大小进行修改,如果程序请求的缓冲采样率不同于原生的采样率,则需进行重采样。可选地,其中AudioRecord不从AudioFlinger层请求新的缓冲。可选地,音频流信号可通过总线从音频芯片传输至GPU。可选地,所述总线包括:USB、PCI、火线。根据本专利技术的一个方面,提供了一种安卓移动端设备音频播放延迟的AI修正装置,包括音频导入模块101,用于控制音频芯片在预定的时间间隔测量传入的模拟音频流信号,将上述模拟音频流信号转换为数字音频流信号后输入缓冲区,其中缓冲区的大小根据总线类型设置;AI音频分析模块102,用于监控缓冲区的数据量,使用将当前的音频参数输入基于机器学习的神经网络,得到基于根据缓冲区中的数据数量而产生的动态调整音频参数;音频修正模块103,用于根据所述动态音频参数修正并播放音频。可选地,其中所述音频参数包括采样率,声道和比特率;可选地,AI音频分析模块102动态调整音频参数位于音频硬件抽象层(HAL)。可选地,其中在AudioFlinger层建立通道,如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列,此时则不会进行重采样,也不会对缓冲区大小进行修改,如果程序请求的缓冲采样率不同于原生的采样率,则需进行重采样。可选地,其中AudioRecord不从AudioFlinger层请求新的缓冲。可选地,由AI音频分析模块102可将音频流信号通过总线从音频芯片传输至GPU。可选地,所述总线包括:USB、PCI、火线。本专利技术有益效果如下:通过安卓移动端设备音频播放延迟AI修正,可有效改善安卓移动端设备的音频播放延迟,提高了用户的游戏和影音体验。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明图1为本专利技术的安卓移动端设备音频播放延迟的AI修正方法的示意图;图2为本专利技术的安卓移动端设备音频播放延迟的AI修正装置的结构图;具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术具体实施例公开了一种音频播放延迟AI修正方法,如图1所示:该方法包括如下步骤:步骤100:控制音频芯片在预定的时间间隔测量传入的模拟音频流信号;将上述模拟音频流信号转换为数字音频流信号后输入缓冲区;其中缓冲区的大小随着不同总线设置而不同;音频芯片通过一个总线连接至CPU,如USB、PCI、火线等。不同数据总线的延迟取决于它内部缓冲区的大小和数量,这里的延迟通常小于1毫秒。步骤110:对输入缓冲区进行监控,以便在监控的缓冲区的数据量达到重采样阈值时,对重采样模块的输入缓冲区中的数据进行重采样,通过对数据进行重采样的方式减少缓存的数据量,相当于在语音接收设备加速播放,达到了降低延迟的目的;监控缓冲区的数据量,使用基于机器学习的神经网络,基于缓冲区中的数量动态调整音频参数,将当前的音频参数输入基于机器学习的神经网络,本公开的目的在于提供一种用于推断最佳数据传输速率的机制,该最佳数据传输速率尽可能接近可达到的数据传输速率。因此,本公开提供了一种避免以下情况的机制:尝试以可能的最高数据传输速率来传输数据,认识到该最高数据传输速率是不可持续的,并且将数据传输速率降级为更可持续的值。相反,本公开中公开的机制利用神经网络技术来直接“猜测”可达到的数据传输速率。所述音频参数包括采样率,声道和比特率;音频参数反映了安卓设备在本次语音播放中每秒钟可以处理的数据量,那么可以设置输入缓冲区的大小可以容纳在本次音频播放N秒钟处理的数据量。其中,N的取值可以根据AI音频分析模块推断而得出,例如5秒。假设音频处理参数具体为:16K的采样率,单声道,16bit的比特率,N的取值为5秒,重采样模块的输入缓冲区的大小为16/8*1*16000*5=156KB。在学习阶段期间,用与音频播放相对应的音频参数作为多个输入和与最佳数据传输速率相对应的多个音频参数的输出来对神经网络训练进行训练。如在神经网络领域中众本文档来自技高网...

【技术保护点】
1.一种安卓移动端设备音频播放延迟的AI修正方法,其特征在于,/n控制音频芯片在预定的时间间隔测量传入的模拟音频流信号;/n将上述模拟音频流信号转换为数字音频流信号后输入缓冲区,其中缓冲区的大小根据总线类型设置;/n监控缓冲区的数据量,将当前的音频参数输入基于机器学习的神经网络,得到根据缓冲区中的数据量而产生的动态音频参数;/n根据所述动态音频参数修正并播放音频。/n

【技术特征摘要】
1.一种安卓移动端设备音频播放延迟的AI修正方法,其特征在于,
控制音频芯片在预定的时间间隔测量传入的模拟音频流信号;
将上述模拟音频流信号转换为数字音频流信号后输入缓冲区,其中缓冲区的大小根据总线类型设置;
监控缓冲区的数据量,将当前的音频参数输入基于机器学习的神经网络,得到根据缓冲区中的数据量而产生的动态音频参数;
根据所述动态音频参数修正并播放音频。


2.根据权利要求1所述的AI修正方法,其特征在于,其中所述音频参数包括采样率,声道和比特率。


3.根据权利要求1所述的AI修正方法,其特征在于,其中在AudioFlinger层建立通道,如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列,此时不进行重采样,也不对缓冲区大小进行修改;如果程序请求的缓冲采样率不同于原生的采样率,则需进行重采样。


4.根据权利要求1所述的AI修正方法,其特征在于,其中AudioRecord不从AudioFlinger层请求新的缓冲。


5.根据权利要求1所述的AI修正方法,其特征在于,音频流信号可通过总线从音频芯片传输至GPU。


6.一种安卓移动端设备音频播放延迟的AI修正装置,其特征在于,该装置包括:
音频导入...

【专利技术属性】
技术研发人员:林东姝
申请(专利权)人:杭州小伴熊科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1