一种基于音域范围的音频token化编码方法及装置制造方法及图纸

技术编号：42610863 阅读：5 留言：0更新日期：2024-09-03 18:18

本发明专利技术提供一种基于音域范围的音频token化编码方法及装置，解决了现有技术中对于音频的处理过程速度缓慢的问题。通过对离散的音频数据转换为token序列和词汇表，并对音频token化后的序列和词汇表进行更新，在满足一定条件后输出词汇表。不仅提高了模型的训练效率，也提高了模型对于音频的理解能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频处理领域，尤其涉及一种基于音域范围的音频token化编码方法及装置。

技术介绍

1、目前，在整个行业领域内，针对音频token化的有效方法相对较为匮乏。主流的常规操作方式是首先对音频内容实施一系列的预处理步骤，这些预处理手段主要涵盖了短时傅里叶变换、梅尔频率倒谱系数等方法。在完成这些预处理流程之后，音频内容会被转化为特定的音频特征，进而作为输入数据被导入模型中展开训练。

2、然而，现有的这些方法存在着明显的缺陷和不足。其中一个突出的问题是，它们会不可避免地致使原始音频信号的部分关键信息出现损失。比如说，在短时傅里叶变换这一过程中，将原本处于时域的信号转换为频域信号时，由于转换过程中的局限性和固有特点，很可能会丢失一些重要的细节信息。与此同时，某些预处理方法，尤其是那些涉及频谱分析和特征提取的部分，往往需要投入较高的计算资源和时间成本，其计算复杂度较高，这就直接导致了整个音频处理过程的速度较为缓慢。例如，在进行大规模音频数据的处理时，复杂的预处理步骤可能会耗费大量的时间，从而严重影响了工作效率和项目的整体进度。

技术实现思路

1、本专利技术提供一种基于音域范围的音频token化编码方法及装置，以解决现有技术中对于音频的处理过程速度缓慢的问题。

2、第一个方面，本专利技术提供了一种基于音域范围的音频token化编码方法，具体包括如下步骤：

3、步骤s1、获取原始音频序列a并对原始音频序列a进行简化，形成序列b；

4、步骤

5、步骤s3、根据所述序列b和所述序列c，初始化词汇表g；

6、步骤s4、根据所述序列c中的相邻符号对，更新所述序列c和所述词汇表g，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出更新完成后的词汇表g。

7、优选地，步骤s1中，对原始音频序列a进行简化，形成序列b，具体为：确定原始音频序列a中数据的精确位数并对精确位数后的数据进行四舍五入（例如，精确位为0.001，原始音频序列a为[0.0124,0.8643,0.1256,0.2489]，则原始音频序列a简化后得到的序列b为[0.012,0.864,0.126,0.249]）。

8、优选地，步骤s3中，所述词汇表g包括所述序列b中的所有不同的数据和序列c中所有不同的符号。

9、优选地，步骤s4中，所述符号对表示前后两个相邻数据在各自设为符号后，组成的一对符号。

10、优选地，步骤s4中，所述更新完成后的词汇表g包括所述序列b中的所有不同的数据和从词汇表g初始化到词汇表g更新完成过程中的所有过程符号。

11、优选地，步骤s4中，根据所述序列c中的相邻符号对，更新所述序列c和所述词汇表g，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出更新完成后的词汇表g，至少选自如下四种方式中的一种；其中，

12、第一种方式，具体包括如下步骤：

13、步骤s311、统计序列c中所有符号对的绝对频率（本申请中所述“绝对频率”为每个符号在序列中出现的次数）；

14、步骤s312、将绝对频率最高的符号对通过一个新符号表示，将序列c中绝对频率最高的符号对替换为该新符号，完成一次序列c的更新；

15、步骤s313、将新符号添加到词汇表g中，完成一次词汇表g的更新；

16、步骤s314、重复执行步骤s311-步骤s313，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出更新完成后的词汇表g。

17、第二种方式，具体包括如下步骤：

18、步骤s321、对序列c进行分词处理，形成多个（本申请中所述“多个”表示大于或等于2个）子词；

19、步骤s322、计算每个子词在序列c中出现的模型得分；

20、步骤s323、将模型得分最高且未出现在词汇表g中的子词添加到词汇表g中，并更新序列c中的符号表示，将序列c中模型得分最高的符号对替换为该新符号，完成一次序列c的更新；

21、步骤s324、将新符号添加到词汇表g中，完成一次词汇表g的更新；

22、步骤s325、重复执行步骤s323-步骤s324，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出更新完成后的词汇表g。

23、优选地，步骤s322中，所述模型得分通过序列c中每个子词对的统计频率和信息熵计算，即选择那些能最大化训练数据可能性（即降低模型在训练集上的交叉熵损失）的子词对进行合并。更注重合并后能最大化训练数据可能性的子词对，这种选择标准通常会导致更少的分词单元。

24、优选地，步骤s323中，用新的子词替换原序列中该子词的所有实例。

25、第三种方式，具体包括如下步骤：

26、步骤s331、统计序列c中所有符号对的相对频率；

27、步骤s332、将相对频率最高的符号对通过一个新的符号表示，将序列c中相对频率最高的符号对替换为该新符号，完成一次序列c的更新；

28、步骤s333、将新符号添加到词汇表g中，完成一次词汇表g的更新；

29、步骤s334、重复执行步骤s331-步骤s333，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出更新完成后的词汇表g。

30、其中，所述相对频率通过字符对的相对频率和语言模型的概率生成。

31、其中，语言模型的概率指的是在给定一定的语言上下文的情况下，某个单词、短语或句子出现的可能性的量化表示，即语言模型试图预测下一个词是什么，或者评估一个给定的词序列在特定语言环境中出现的合理程度，通过计算这些概率，语言模型能够生成更符合语言习惯和逻辑的文本，也能够对给定的文本进行评估和分析。

32、优选地，步骤s332中，通过unigram模型获取出现次数最多的符号对。

33、第四种方式，具体包括如下步骤：

34、步骤s341、统计序列c中所有符号对的绝对频率；

35、步骤s342、确定重要性最高的符号对并将其通过一个新符号表示，将序列c中重要性最高的符号对替换为该新符号，完成一次序列c的更新；

36、步骤s343、更新所有符号出现的绝对频率并计算每个符号对的重要性；

37、步骤s344、重复步骤s341-步骤s343，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出更新完成后的词汇表g。

38、优选地，步骤s342中，通过统计每个符号对出现绝对频率或基于textrank方法计算的符号对权重确定重要性最高的符号对。

39、第二个方面，本专利技术还提供了一种基于音域本文档来自技高网...

【技术保护点】

1.一种基于音域范围的音频token化编码的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S1中，对原始音频序列A进行简化，形成序列B，具体为：确定原始音频序列A中数据的精确位数并对精确位数后的数据进行四舍五入。

3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S3中，所述词汇表G包括所述序列B中的所有不同的数据和序列C中所有不同的符号。

4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S4中，所述更新完成后的词汇表G包括所述序列B中的所有不同的数据和从词汇表G初始化到词汇表G更新完成过程中的所有过程符号。

5.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S4中，根据所述词汇表G中的相邻符号对，更新所述词汇表G，当所述词汇表G的更新次数达到设定的最大更新次数或所述词汇表G的大小达到设定大小时，输出更新完成后的词汇表G，至少选自如下四种方式中的一种；其中，

6.根据权利要求5所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S322中，通过unigram模型获取出现次数最多的符号对。

7.根据权利要求5所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S342中，通过统计每个符号对出现频率或基于TextRank方法计算的符号对权重确定重要性最高的符号对。

8.一种基于音域范围的音频token化编码的装置，其特征在于，具体包括如下模块：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种基于音域范围的音频token化编码的方法。

10.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的一种基于音域范围的音频token化编码的方法。

...

【技术特征摘要】

1.一种基于音域范围的音频token化编码的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s1中，对原始音频序列a进行简化，形成序列b，具体为：确定原始音频序列a中数据的精确位数并对精确位数后的数据进行四舍五入。

3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s3中，所述词汇表g包括所述序列b中的所有不同的数据和序列c中所有不同的符号。

4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s4中，所述更新完成后的词汇表g包括所述序列b中的所有不同的数据和从词汇表g初始化到词汇表g更新完成过程中的所有过程符号。

5.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s4中，根据所述词汇表g中的相邻符号对，更新所述词汇表g，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出...

【专利技术属性】
技术研发人员：刘凡平，
申请(专利权)人：上海岩芯数智人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人