一种基于语音特征挖掘新词汇的方法及系统技术方案

技术编号：37323148 阅读：19 留言：0更新日期：2023-04-21 23:02

本发明专利技术提出了一种基于语音特征挖掘新词汇的方法及系统，属于NLP和语音相结合的分词技术领域。其中方法包括：步骤1、构建训练数据集；步骤2、对训练数据集中的数据进行半标注；步骤3、读取训练数据集中每一条训练数据，并提取频域特征；步骤4、构建语音文本分词模型，并利用训练数据集进行性能训练；步骤5、利用训练完的语音文本分词模型对待分析语音文本数据进行新词分析；步骤6、将得到的新词结果输出。本发明专利技术针语音文本连贯的特殊性，构建语音文本分词模型，并利用提出的新词汇挖掘方法对收集到的语音文本数据集进行分词，通过结合说话方式的连贯性，从中发现新词。从中发现新词。从中发现新词。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音特征挖掘新词汇的方法及系统

[0001]本专利技术属于NLP和语音相结合的分词
，特别是涉及一种基于语音特征挖掘新词汇的方法及系统。

技术介绍

[0002]随着网络技术的发展，各个领域一直在不断的涌入新词。新词的发现是NLP领域的基础任务之一，可以提高计算机对文本的理解能力。
[0003]现有的新词的发现方法主要有：人工标注、分词等几种方式。对于人工标注的方法，需要耗费大量的人力物力。对于分词方法，往往出现分词错误的情况，导致新词难以被发现。比如：“时空伴随”，利用jieba分词的结果为：”时空\伴随”。我们都知道，“时空伴随”这个词是因为疫情而产生的一个新词，如果用传统的分词，则会将这个新词分开，导致难以发现“时空伴随”这个新词。
[0004]传统的分词技术，只考虑了文本语义信息，而新词往往很难知晓他的语义信息，因此往往会出现分词效果不佳的现象。

技术实现思路

[0005]专利技术目的：提出一种基于语音特征挖掘新词汇的方法及系统，以解决现有技术存在的上述问题。通过结合说话方式的连贯性，对收集到的语音文本数据集进行分词，从中发现新词。
[0006]技术方案：第一方面，提出了一种基于语音特征挖掘新词汇的方法，该方法具体包括以下步骤：
[0007]步骤1、构建包含语音数据和对应文本数据的训练数据集；
[0008]步骤2、对训练数据集中的数据进行半标注；
[0009]对训练数据集中的数据执行半标注的过程中，采用{B,S,M,E}的模式进行标注...

【技术保护点】

【技术特征摘要】
1.一种基于语音特征挖掘新词汇的方法，其特征在于，具体包括以下步骤：步骤1、构建训练数据集；步骤2、对训练数据集中的数据进行半标注；步骤3、读取训练数据集中每一条训练数据，并提取频域特征；步骤4、构建语音文本分词模型，并利用训练数据集进行性能训练；步骤5、利用训练完的语音文本分词模型对待分析语音文本数据进行新词分析；步骤6、将得到的新词结果输出。2.根据权利要求1所述的一种基于语音特征挖掘新词汇的方法，其特征在于，所述训练数据集采用开源训练数据，包含语音数据和对应的文本数据；对所述训练数据集中的数据执行半标注的过程中，采用{B,S,M,E}的模式进行标注，其中B表示一个词的开头，S表示单个字，M表示一个词的中间，E表示一个词的结束。3.根据权利要求2所述的一种基于语音特征挖掘新词汇的方法，其特征在于，在完成数据标注后，利用至少三种分词技术对文本数据进行分词，并针对分词结果进行判断和修正，获得处理后的语音训练数据TS＝[TS
i
]
n
和对应分好词的文本数据集TT＝[TT
i
]
n
。4.根据权利要求2所述的一种基于语音特征挖掘新词汇的方法，其特征在于，利用语音识别技术，将语音数据和对应的文本数据进行对齐，实现一条语音数据到每个文字对应语音片段的转换；基于获取到的每个文字对应的语音片段，在经过预处理后，得到语音片段对应的频域特征，即向量矩阵TSF
i,j
：式中，f
i,j
表示语音片段TS
i,j
经过帧率f采样后的帧数，80为FBank声学特征维度；TS
i,j
表示第i条语音数据中的第j个语音片段。5.根据权利要求1所述的一种基于语音特征挖掘新词汇的方法，其特征在于，所述语音文本分词模型包括：输入层、编码层、全连接层、Bert模型、Softmax层和输出层；在利用语音文本分词对训练数据集进行处理分析时，具体包括以下步骤：步骤4.1、读取训练数据集中的每个文本数据对应语音片段数据的频域特征矩阵；步骤4.2、利用编码层对读取到的频域特征矩阵进行编码，输出对应的语音编码向量；步骤4.3、基于预设的字典，将文本数据转换为文字编码向量；步骤4.4、将语音编码向量和文字编码向量进行纵向拼接，得到输入向量；步骤4.5、采用全连接层对输入向量进行维度转换；步骤4.6、将转换后的向量输入Bert模型进行分析，获得输出矩阵H；步骤...

【专利技术属性】
技术研发人员：饶淑梅，吕晓宝，王元兵，王海荣，
申请(专利权)人：中科曙光南京研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人