文本特征语义提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25690209 阅读:29 留言:0更新日期:2020-09-18 21:01
本发明专利技术涉及人工智能技术领域,揭露了一种文本特征语义提取方法,包括:将文本集中所有句子调整为相同长度,对调整后的句子建立文本矩阵;对文本集中所有句子进行分词,得到词语集;将词语集转换为词语向量集,获取词语向量集中所有词语向量的词位置向量集;根据文本矩阵,获取词语集中所有词语的邻接词序列,对邻接词序列进行编码,生成邻接词向量集;合并词语向量集、词位置向量集以及邻接词向量集,得到目标词向量集;利用文本特征语义提取模型对目标词向量集进行编码和解码操作,得到文本特征向量序列,生成文本特征语义。本发明专利技术还提出一种文本特征语义提取装置、电子设备以及计算机可读存储介质。本发明专利技术可以实现文本特征语义的提取。

【技术实现步骤摘要】
文本特征语义提取方法、装置、电子设备及存储介质
本专利技术涉及人工智能
,尤其涉及一种文本特征语义提取的方法、装置、电子设备及计算机可读存储介质。
技术介绍
文本特征语义指的是可以用来表征一个文本核心思想的一句话或一个词语。所述文本特征语义可以用于文本分类领域、文本主题提取领域以及文本情感分析领域等。目前文本特征语义提取主要是基于开源的BERT(BidirectionalEncoderRepresentationsfromTransformers)模型进行提取。但是通过所述BERT模型对文本进行特征语义提取存在如下弊端:只是简单的将文本中词向量、词位置向量的相加之和作为所述BERT模型的输入向量,并没有考虑到词向量之间的关联度,导致提取出的文本特征语义会有所偏差。
技术实现思路
本专利技术提供一种文本特征语义提取的方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决文本特征语义提取出现偏差的现象。为实现上述目的,本专利技术提供的一种文本特征语义提取方法,包括:获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;对所述文本集中文本的所有句子进行分词,得到词语集;将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。可选地,所述预设的正余弦波函数包括:其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第奇数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。可选地,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:利用前向编码器对所述邻接词序列中的每一个词语进行前向编码,得到该词语的前向邻接词向量;利用后向编码器对所述邻接词序列中的每一个词语进行后向编码,得到该词语的后向邻接词向量;将所述每一个词语的所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。可选地,所述生成邻接词向量集之后,该方法还包括:对所述邻接词向量集中每一个邻接词向量进行权重标注;根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。可选地,所述对所述邻接词向量集进行权重标注包括:根据所述邻接词向量集建立一个矩阵;随机设置所述矩阵中每个邻接词向量的标签序列号;根据所述标签序列号,生成所述矩阵中对应邻接词向量的权重向量序列号;计算所述权重向量序列号对应的邻接词向量的权重。可选地,训练所述文本特征语义模型,其中,所述训练包括:获取训练所述文本特征语义模型的语料文本;计算所述语料文本中每个词语的频率和逆文档频率;将所述每个词语的频率和逆文档频率相乘,得到词语权重,根据所述词语权重,将语料文本中的词语进行优先级排序并标记ID,生成词语权重序列;对所述语料文本中每个词语进行词性分析,统计每种词性所占比例,按照词性所占比例,对所述语料文本中每个词语进行优先级排序并标记ID,形成词性属性序列;将每个词语的词语权重序列ID与词性属性序列进行相乘并排序,得到目标词语序列;利用所述目标词语序列训练所述文本特征语义模型。可选地,所述计算所述语料文本中每个词语的频率和逆文档频率,包括:利用下述方法计算所述语料文本中每个词语的频率:其中,tfi,j表示词语j在语料文本i的频率,ni,j表示词语j在语料文本i中出现的次数,∑knk表示语料文本中所有词语的数量;及利用下述方法计算所述语料文本中每个词语的逆文档频率:其中,IDFi表示词语i的逆文档频率,n表示语料文本的数量,mi包含词语i的语料文本的数量。为了解决上述问题,本专利技术还提供一种文本特征语义提取装置,所述装置包括:调整模块,用于获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;分词模块,用于对所述文本集中文本的所有句子进行分词,得到词语集;转换及获取模块,用于将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;编码模块,用于根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;合并模块,用于合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;生成模块,用于利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的文本特征语义提取方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的文本特征语义提取方法。本专利技术实施例首先将文本集中文本的所有句子长度调整为相同长度,根据调整后的文本的句子建立文本矩阵,并将句子中所有词语转换为词语向量集以及获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;进一步地,根据所述文本矩阵,获取词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集,通过生成的邻接词向量集可以表征出不同词向量之间的关联度;最后,合并所述词语向量集、词位置向量集以及邻接词向量集,得到目标词向量集,结合一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,生成文本特征语义。因此,本专利技术实施例提出的一种文本特征语义提取方法、装置、电子设备以及计算机可读存储介质可以解决文本特征语义提取出现偏差的现象。附图说明图1为本专利技术一实施例提供的文本特征语义提取方法的流程示意图;图2为本专利技术图1中文本特征语义提取方法中步骤S4的详细实施流程示意图;图3为本专利技术一实施例提供的文本特征语义提取装置的模块示意图;图4为本专利技术一实施例提供的实现文本特征语义提取方法的电子设备的内部结构示意图;本专利技术目本文档来自技高网...

【技术保护点】
1.一种文本特征语义提取方法,其特征在于,所述方法包括:/n获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;/n对所述文本集中文本的所有句子进行分词,得到词语集;/n将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;/n根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;/n合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;/n利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。/n

【技术特征摘要】
1.一种文本特征语义提取方法,其特征在于,所述方法包括:
获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
对所述文本集中文本的所有句子进行分词,得到词语集;
将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。


2.如权利要求1所述的文本特征语义提取方法,其特征在于,所述预设的正余弦波函数包括:






其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第奇数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。


3.如权利要求1所述的文本特征语义提取方法,其特征在于,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:
利用前向编码器对所述邻接词序列中的每一个词语进行前向编码,得到该词语的前向邻接词向量;
利用后向编码器对所述邻接词序列中的每一个词语进行后向编码,得到该词语的后向邻接词向量;
将所述每一个词语的所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。


4.如权利要求1所述的文本特征语义提取方法,其特征在于,所述生成邻接词向量集之后,该方法还包括:
对所述邻接词向量集中每一个邻接词向量进行权重标注;
根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。


5.如权利要求4中所述的文本特征语义提取方法,其特征在于,所述对所述邻接词向量集进行权重标注,包括:
根据所述邻接词向量集建立一个矩阵;
随机设置所述矩阵中每个邻接词向量的标签序列号;
根据所述标签序列号,生成所述矩阵中对应邻接词向量的权重向量序列号;
计算所述权重向量序列号对应的邻接词向量的权重。


6.如权利要求1至5中任意一项所述的文本特征语义提取方法,其特征在于,该方法还包括:训练所述文本特征语义模型,其中,所述训练包括:
获取训练所述文本...

【专利技术属性】
技术研发人员:王伟
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1