一种智能识别电商标题方法技术

技术编号：37234182 阅读：22 留言：0更新日期：2023-04-20 23:16

本发明专利技术属于自然语言处理的命名实体识别领域，特别涉及一种智能识别电商标题方法，所述方法包括：收集电商数据样本，对数据进行标注；送入自注意力模型，得到词向量；使用掩码自注意力机制分别提取正向信息和反向信息；头指针与尾指针匹配时融入相对位置向量信息，得到预测的实体片段，本发明专利技术引入辅助学习任务，让实体边界更加清晰；采用掩码自注意力机制表达正向和反向的信息，保证前后信息不会被泄露；头指针与尾指针匹配融入相对位置向量，提升相邻位置的语义表达。邻位置的语义表达。邻位置的语义表达。

全部详细技术资料下载

【技术实现步骤摘要】
一种智能识别电商标题方法

[0001]本专利技术属于自然语言处理的命名实体识别领域，特别涉及一种智能识别电商标题方法。

技术介绍

[0002]电商作为一种主流的购物手段，已经逐渐占领了生活中的方方面面。电商既是消费者的消费途径，也是商家的获利渠道。
[0003]如何将商品准确的推荐给消费者，让消费者在挑选商品上花费更少的时间，同时促进他们的购买欲望，这是电商领域一致在优化的问题。消费者搜索商品的场景可以转换为query与商品标签的匹配，如何将复杂冗余的电商标题转化为完整独立的标签，成为了一个重点。
[0004]如果对电商标题进行命名实体识别任务，很容易发现电商标题存在实体嵌套的问题，普通的命名实体识别任务通常是做平面实体的识别，但为了适应电商这种充满不规则自然语言的领域，应该提出可适应更强的方案来解决嵌套命名实体的识别。同时电商领域的数据丰富，模型应该具有更优秀的训练时长表现。

技术实现思路

[0005]为解决以上现有技术存在的问题，本专利技术提出了一种智能识别电商标题方法，该方法包括：获取待识别的电商标题样本，将样本输入到电商实体提取模型，得到预测实体，对电商实体提取模型进行训练的过程包括：
[0006]S1：对收集到的电商数据样本进行处理，按照实体片段的头尾边界位置对数据进行标注；
[0007]S2：将样本映射为词嵌入形式，并送入引入辅助学习任务训练的自注意力模型，得到词向量；
[0008]S3：对词向量使用掩码自注意力机制提取正向信息作为头指针，提取反向信...

【技术保护点】

【技术特征摘要】
1.一种智能识别电商标题方法，获取待识别的电商标题样本，将样本输入到电商实体提取模型，得到预测实体，其特征在于，电商实体提取模型的训练包括：S1：对收集到的电商数据样本进行处理，按照实体片段的头尾边界位置对数据进行标注；S2：将样本映射为词嵌入形式，并送入引入辅助学习任务训练的自注意力模型，得到词向量；S3：对词向量使用掩码自注意力机制提取正向信息作为头指针，提取反向信息作为尾指针；S4：头指针与尾指针匹配时融入相对位置向量信息，得到预测的实体片段；S5：迭代训练电商实体提取模型，保存模型参数。2.根据权利要求1所述的一种智能识别电商标题方法，其特征在于，步骤S2所述的自注意力模型，引入辅助学习任务的训练过程包括：步骤1：将样本映射为词嵌入形式，并送入自注意力模型；步骤2：根据当前字符与附近字符的词向量相似度进行计算损失值；步骤3：根据损失值进行梯度反传，更新模型里的参数，进行模型训练。3.根据权利要求2所述的一种智能识别电商标题方法，其特征在于，所述当前字符与附近字符的词向量相似度计算包括：选任一字符作为模板词w，与模板词位置相近的字符作为参考词序列[w1,w2,...,w
i
,...]，将模板词与参考词序列做计算，计算规则如下：loss＝∑loss
i
其中y表示模板词是否为实体边界的预测值，Y
i
表示参考词是否为实体边界的实际值，loss
i
表示模板词w与参考词w
i
之间的损失值，loss表示模板词与参考词序列中所有词的损失loss

【专利技术属性】
技术研发人员：王进，蒋诗琪，廖唯皓，唐鑫，刘彬，杜雨露，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人