一种基于语音特征挖掘新词汇的方法及系统技术方案

技术编号:37323148 阅读:19 留言:0更新日期:2023-04-21 23:02
本发明专利技术提出了一种基于语音特征挖掘新词汇的方法及系统,属于NLP和语音相结合的分词技术领域。其中方法包括:步骤1、构建训练数据集;步骤2、对训练数据集中的数据进行半标注;步骤3、读取训练数据集中每一条训练数据,并提取频域特征;步骤4、构建语音文本分词模型,并利用训练数据集进行性能训练;步骤5、利用训练完的语音文本分词模型对待分析语音文本数据进行新词分析;步骤6、将得到的新词结果输出。本发明专利技术针语音文本连贯的特殊性,构建语音文本分词模型,并利用提出的新词汇挖掘方法对收集到的语音文本数据集进行分词,通过结合说话方式的连贯性,从中发现新词。从中发现新词。从中发现新词。

【技术实现步骤摘要】
一种基于语音特征挖掘新词汇的方法及系统


[0001]本专利技术属于NLP和语音相结合的分词
,特别是涉及一种基于语音特征挖掘新词汇的方法及系统。

技术介绍

[0002]随着网络技术的发展,各个领域一直在不断的涌入新词。新词的发现是NLP领域的基础任务之一,可以提高计算机对文本的理解能力。
[0003]现有的新词的发现方法主要有:人工标注、分词等几种方式。对于人工标注的方法,需要耗费大量的人力物力。对于分词方法,往往出现分词错误的情况,导致新词难以被发现。比如:“时空伴随”,利用jieba分词的结果为:”时空\伴随”。我们都知道,“时空伴随”这个词是因为疫情而产生的一个新词,如果用传统的分词,则会将这个新词分开,导致难以发现“时空伴随”这个新词。
[0004]传统的分词技术,只考虑了文本语义信息,而新词往往很难知晓他的语义信息,因此往往会出现分词效果不佳的现象。

技术实现思路

[0005]专利技术目的:提出一种基于语音特征挖掘新词汇的方法及系统,以解决现有技术存在的上述问题。通过结合说话方式的连贯性,对收集到的语音文本数据集进行分词,从中发现新词。
[0006]技术方案:第一方面,提出了一种基于语音特征挖掘新词汇的方法,该方法具体包括以下步骤:
[0007]步骤1、构建包含语音数据和对应文本数据的训练数据集;
[0008]步骤2、对训练数据集中的数据进行半标注;
[0009]对训练数据集中的数据执行半标注的过程中,采用{B,S,M,E}的模式进行标注,其中B表示一个词的开头,S表示单个字,M表示一个词的中间,E表示一个词的结束。在完成数据标注后,利用至少三种分词技术对文本数据进行分词,并针对分词结果进行判断和修正,获得处理后的语音训练数据TS=[TS
i
]n
和对应分好词的文本数据集TT=[TT
i
]n

[0010]步骤3、读取训练数据集中每一条训练数据,利用语音识别技术,将语音数据和对应的文本数据进行对齐,实现一条语音数据到语音片段的转换;
[0011]基于获取到的每个文字对应的语音片段,在经过预处理后,得到语音片段对应的频域特征即向量矩阵TSF
i,j

[0012][0013]式中,f
i,j
表示语音片段TS
i,j
经过帧率f采样后的帧数,80为FBank声学特征维度;TS
i,j
表示第i条语音数据中的第j个语音片段。
[0014]步骤4、构建语音文本分词模型,并利用训练数据集进行性能训练;其中,语音文本分词模型包括:输入层、编码层、全连接层、Bert模型、Softmax层和输出层;
[0015]在利用语音文本分词对训练数据集进行处理分析时,具体包括以下步骤:
[0016]步骤4.1、读取训练数据集中的每个文本数据对应语音片段数据的频域特征矩阵;
[0017]步骤4.2、利用编码层对读取到的频域特征矩阵进行编码,输出对应的语音编码向量;
[0018]步骤4.3、基于预设的字典,将文本数据转换为文字编码向量;
[0019]步骤4.4、将语音编码向量和文字编码向量进行纵向拼接,得到输入向量;
[0020]步骤4.5、采用全连接层对输入向量进行维度转换;
[0021]步骤4.6、将转换后的向量输入Bert模型进行分析,获得输出矩阵H;
[0022]步骤4.7、将输出矩阵中的向量经过一个全连接层后,得到预测向量;
[0023]步骤4.8、利用softmax将预测向量映射到对应每个类别的概率向量,并输出对应的类别;
[0024]步骤4.9、计算输出值与真实值之间的损失函数,并通过反向传播的方式优化模型参数。
[0025]步骤5、利用训练完的语音文本分词模型对待分析语音文本数据进行新词分析,利用语音文本分词模型对待分析语音文本数据进行新词分析的过程具体包括以下步骤:
[0026]步骤5.1、获取待分析的语音文本对;所述语音文本对包含语音数据和对应的文本数据;
[0027]步骤5.2、将语音文本对传输至语音识别模型,获得每个文本对应的语音片段;
[0028]步骤5.3、提取语音片段中的频域特征与对应的文字,获得语音文本分词模型的输入数据集;
[0029]步骤5.4、利用语音文本分析模型对输入数据集进行分析,得到每个字的标签,获取到每句话的分词结果;
[0030]步骤5.5、比对分词词典与语音文本分析模型的分析结果,判断新词;
[0031]步骤5.6、将获得的新词更新至分词词典中。
[0032]步骤6、将得到的新词结果输出。
[0033]在第一方面的一些可实现方式中,为了提高语音文本分词模型的性能,采用交叉熵损失函数判断真实值与预测值的差值,并通过反向传播的方式,更新模型中的参数,实现模型的性能优化;
[0034]所述交叉熵损失函数的表达式为:
[0035][0036]式中,N表示训练的总样本数;i表示第i条数据;t表示第i条数据第t个文字;c表示第i条数据第t个文字第c类;表示预测值。
[0037]第二方面,提出一种基于语音特征挖掘新词汇的系统,用于实现基于语音特征挖掘新词汇的方法,该系统具体包括以下模块:
[0038]用于构建训练数据集的数据集构建模块;
[0039]用于对训练数据执行半标注的数据标注模块;
[0040]用于提取训练数据频域特征的特征提取模块;
[0041]用于构建语音文本分析模型的模型构建模块;
[0042]用于执行新词分词的数据分析模块;
[0043]用于输出新词的新词输出模块。
[0044]其中语音文本分词模型包含:输入层、编码层、全连接层、Bert模型、Softmax层和输出层。
[0045]第三方面,提出一种智能仓储运输中的障碍物识别规避设备,该设备包括:处理器以及存储有计算机程序指令的存储器。
[0046]其中,处理器读取并执行计算机程序指令,以实现基于语音特征挖掘新词汇的方法。
[0047]第四方面,提出一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令。计算机程序指令被处理器执行时,以实现基于语音特征挖掘新词汇的方法
[0048]有益效果:本专利技术提出了一种基于语音特征挖掘新词汇的方法及系统,通过结合说话方式的连贯性,对收集到的语音文本数据集进行分词,从中发现新词。与现有技术相比,结合了语音特征和文本语义特征对句子进行分词,考虑到了更多的特征,分词效果高于单纯的文本分词;另外,待分析的文本数据来源于实时获得的语音文本数据,可以实时自主的发现新词,且在应用过程中无需重新训练模型或人工标注,节省了人力。除此之外,在模型性能训练的过程中,针对获取的训练集采用三种分词方式对数据进行标注,并只对标注不一致的进行人工检验,达到提高标注数据准确性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音特征挖掘新词汇的方法,其特征在于,具体包括以下步骤:步骤1、构建训练数据集;步骤2、对训练数据集中的数据进行半标注;步骤3、读取训练数据集中每一条训练数据,并提取频域特征;步骤4、构建语音文本分词模型,并利用训练数据集进行性能训练;步骤5、利用训练完的语音文本分词模型对待分析语音文本数据进行新词分析;步骤6、将得到的新词结果输出。2.根据权利要求1所述的一种基于语音特征挖掘新词汇的方法,其特征在于,所述训练数据集采用开源训练数据,包含语音数据和对应的文本数据;对所述训练数据集中的数据执行半标注的过程中,采用{B,S,M,E}的模式进行标注,其中B表示一个词的开头,S表示单个字,M表示一个词的中间,E表示一个词的结束。3.根据权利要求2所述的一种基于语音特征挖掘新词汇的方法,其特征在于,在完成数据标注后,利用至少三种分词技术对文本数据进行分词,并针对分词结果进行判断和修正,获得处理后的语音训练数据TS=[TS
i
]
n
和对应分好词的文本数据集TT=[TT
i
]
n
。4.根据权利要求2所述的一种基于语音特征挖掘新词汇的方法,其特征在于,利用语音识别技术,将语音数据和对应的文本数据进行对齐,实现一条语音数据到每个文字对应语音片段的转换;基于获取到的每个文字对应的语音片段,在经过预处理后,得到语音片段对应的频域特征,即向量矩阵TSF
i,j
:式中,f
i,j
表示语音片段TS
i,j
经过帧率f采样后的帧数,80为FBank声学特征维度;TS
i,j
表示第i条语音数据中的第j个语音片段。5.根据权利要求1所述的一种基于语音特征挖掘新词汇的方法,其特征在于,所述语音文本分词模型包括:输入层、编码层、全连接层、Bert模型、Softmax层和输出层;在利用语音文本分词对训练数据集进行处理分析时,具体包括以下步骤:步骤4.1、读取训练数据集中的每个文本数据对应语音片段数据的频域特征矩阵;步骤4.2、利用编码层对读取到的频域特征矩阵进行编码,输出对应的语音编码向量;步骤4.3、基于预设的字典,将文本数据转换为文字编码向量;步骤4.4、将语音编码向量和文字编码向量进行纵向拼接,得到输入向量;步骤4.5、采用全连接层对输入向量进行维度转换;步骤4.6、将转换后的向量输入Bert模型进行分析,获得输出矩阵H;步骤...

【专利技术属性】
技术研发人员:饶淑梅吕晓宝王元兵王海荣
申请(专利权)人:中科曙光南京研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1