文本特征语义提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：25690209 阅读：29 留言：0更新日期：2020-09-18 21:01

本发明专利技术涉及人工智能技术领域，揭露了一种文本特征语义提取方法，包括：将文本集中所有句子调整为相同长度，对调整后的句子建立文本矩阵；对文本集中所有句子进行分词，得到词语集；将词语集转换为词语向量集，获取词语向量集中所有词语向量的词位置向量集；根据文本矩阵，获取词语集中所有词语的邻接词序列，对邻接词序列进行编码，生成邻接词向量集；合并词语向量集、词位置向量集以及邻接词向量集，得到目标词向量集；利用文本特征语义提取模型对目标词向量集进行编码和解码操作，得到文本特征向量序列，生成文本特征语义。本发明专利技术还提出一种文本特征语义提取装置、电子设备以及计算机可读存储介质。本发明专利技术可以实现文本特征语义的提取。

全部详细技术资料下载

【技术实现步骤摘要】
文本特征语义提取方法、装置、电子设备及存储介质
本专利技术涉及人工智能
，尤其涉及一种文本特征语义提取的方法、装置、电子设备及计算机可读存储介质。
技术介绍
文本特征语义指的是可以用来表征一个文本核心思想的一句话或一个词语。所述文本特征语义可以用于文本分类领域、文本主题提取领域以及文本情感分析领域等。目前文本特征语义提取主要是基于开源的BERT(BidirectionalEncoderRepresentationsfromTransformers)模型进行提取。但是通过所述BERT模型对文本进行特征语义提取存在如下弊端：只是简单的将文本中词向量、词位置向量的相加之和作为所述BERT模型的输入向量，并没有考虑到词向量之间的关联度，导致提取出的文本特征语义会有所偏差。
技术实现思路
本专利技术提供一种文本特征语义提取的方法、装置、电子设备及计算机可读存储介质，其主要目的在于解决文本特征语义提取出现偏差的现象。为实现上述目的，本专利技术提供的一种文本特征语义提取方法，包括：获取文本集，将所述文本集中文本的所有句子调整为相同长度，得到目标句子集，根据所述目标句子集建立文本矩阵；对所述文本集中文本的所有句子进行分词，得到词语集；将所述词语集转换为词语向量集，利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量，得到词位置向量集；根据所述文本矩阵，获取所述词语集中所有词语的邻接词序列，对所述邻接词序列进行编码，生成邻接词向量集；合并所...

【技术保护点】
1.一种文本特征语义提取方法，其特征在于，所述方法包括：/n获取文本集，将所述文本集中文本的所有句子调整为相同长度，得到目标句子集，根据所述目标句子集建立文本矩阵；/n对所述文本集中文本的所有句子进行分词，得到词语集；/n将所述词语集转换为词语向量集，利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量，得到词位置向量集；/n根据所述文本矩阵，获取所述词语集中所有词语的邻接词序列，对所述邻接词序列进行编码，生成邻接词向量集；/n合并所述词语向量集、所述词位置向量集以及所述邻接词向量集，得到目标词向量集；/n利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作，得到所述目标词向量集的文本特征向量序列，根据所述文本特征向量序列，生成文本特征语义。/n

【技术特征摘要】
1.一种文本特征语义提取方法，其特征在于，所述方法包括：
获取文本集，将所述文本集中文本的所有句子调整为相同长度，得到目标句子集，根据所述目标句子集建立文本矩阵；
对所述文本集中文本的所有句子进行分词，得到词语集；
将所述词语集转换为词语向量集，利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量，得到词位置向量集；
根据所述文本矩阵，获取所述词语集中所有词语的邻接词序列，对所述邻接词序列进行编码，生成邻接词向量集；
合并所述词语向量集、所述词位置向量集以及所述邻接词向量集，得到目标词向量集；
利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作，得到所述目标词向量集的文本特征向量序列，根据所述文本特征向量序列，生成文本特征语义。

2.如权利要求1所述的文本特征语义提取方法，其特征在于，所述预设的正余弦波函数包括：

其中，PE(pos，2i)表示句子中第偶数个词语向量的位置向量，PE(pos，2i+1)表示句子中第奇数个词语向量的位置向量，pos表示词位置向量索引，i表示在句子中第i个词语向量，dmodel表示词语向量维度。

3.如权利要求1所述的文本特征语义提取方法，其特征在于，所述对所述邻接词序列进行编码，生成邻接词向量集，包括：
利用前向编码器对所述邻接词序列中的每一个词语进行前向编码，得到该词语的前向邻接词向量；
利用后向编码器对所述邻接词序列中的每一个词语进行后向编码，得到该词语的后向邻接词向量；
将所述每一个词语的所述前向邻接词向量与所述后向邻接词向量进行拼接，得到邻接词向量，根据所述邻接词向量生成所述邻接词向量集。

4.如权利要求1所述的文本特征语义提取方法，其特征在于，所述生成邻接词向量集之后，该方法还包括：
对所述邻接词向量集中每一个邻接词向量进行权重标注；
根据所述权重标注，对所述邻接词向量集进行优先级排序，根据所述优先级排序，执行与所述词语向量集和所述词位置向量集的合并。

5.如权利要求4中所述的文本特征语义提取方法，其特征在于，所述对所述邻接词向量集进行权重标注，包括：
根据所述邻接词向量集建立一个矩阵；
随机设置所述矩阵中每个邻接词向量的标签序列号；
根据所述标签序列号，生成所述矩阵中对应邻接词向量的权重向量序列号；
计算所述权重向量序列号对应的邻接词向量的权重。

6.如权利要求1至5中任意一项所述的文本特征语义提取方法，其特征在于，该方法还包括：训练所述文本特征语义模型，其中，所述训练包括：
获取训练所述文本...

【专利技术属性】
技术研发人员：王伟，
申请(专利权)人：平安银行股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人