System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向人机对话系统的命名实体识别方法技术方案_技高网

一种面向人机对话系统的命名实体识别方法技术方案

技术编号:44936650 阅读:4 留言:0更新日期:2025-04-12 01:14
一种面向人机对话系统的命名实体识别方法,首先去除大语言模型的因果掩码以充分挖掘大语言模型的双向语义嵌入表征能力,使其更适用于精准的令牌分类任务;然后计算大语言模型语义嵌入的语义相似度并作为新的监督信息融合到大语言模型的语义嵌入中,以改善去掩码大语言模型在恢复双向注意力时标签监督能力不足的问题,从而使模型获得更好的语义嵌入来计算对应的实体分数;最后分别计算实体和类型分数来识别命名实体。本发明专利技术考虑了大语言模型的双向语义理解信息和语义相似度信息,提高了大语言模型在人机对话系统中的命名实体识别的准确度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别是一种面向人机对话系统的命名实体识别方法


技术介绍

1、近年来,随着人工智能技术的迅速发展,人机对话系统在智能客服、语音助手、在线教育等领域得到了广泛应用。作为人机对话系统的核心技术之一,命名实体识别在文本理解、用户意图识别以及上下文语义解析中发挥着重要作用。通过识别用户输入文本中的如人名、地名、组织名等实体,系统可以更准确地理解用户需求,从而提供更符合语境的服务。然而,随着人机对话系统的复杂性增加,如何高效识别人机对话语句中的命名实体,从而更准确的理解用户需求,成为人机对话系统需要解决的关键问题。基于大语言模型的技术可以为人机对话系统提供准确、高效的对话能力和较高的泛化性。

2、传统的命名实体识别方法主要基于规则或统计学习模型,这些方法依赖于人工设计特征或特定领域的大量标注数据,适应性有限。近年来,如bilstm-crf和transformer等深度学习模型在命名实体识别任务中取得了显著进展。这些模型通过利用上下文信息和强大的特征学习能力,实现了对实体边界和类型的高效预测。然而,它们在面对多样化语言表达方式以及跨领域应用场景时,仍可能面临泛化能力的瓶颈。

3、大语言模型的崛起为命名实体识别和人机对话技术的发展带来了新机遇。尤其是基于因果掩码建模和自回归建模的生成式大语言模型,展现了强大的上下文理解能力。然而,在实际应用中,基于因果掩码建模的模型可能存在语义信息不足的问题,每一个令牌只对其后面的令牌可见,而对前面的令牌不可见,从而限制了对全局上下文的建模能力,在严格的令牌分类任务中表现不佳。这在对复杂句法结构或需要上下文依赖进行命名实体识别时,可能导致性能下降。为了更准确地识别命名实体,本专利技术提出了一种面向人机对话系统的命名实体识别方法。通过消除掩码机制的局限性,并结合语义相似度计算,提升命名实体识别的准确性与泛化能力。


技术实现思路

1、为了克服目前人机对话系统中存在的命名实体识别准确性不高和泛化性不强等方面的不足,针对人机对话中复杂句法结构、上下文理解能力不足等问题,本专利技术提出了一种面向人机对话系统的命名实体识别方法,利用去掩码大语言模型获得丰富的上下文语义信息,并通过融合语义相似度使得模型可以更好的理解人机对话中的语义信息。

2、本专利技术解决技术问题所采用的技术方案是:

3、一种面向人机对话系统的命名实体识别方法,首先去除大语言模型的因果掩码以充分挖掘大语言模型的双向语义嵌入表征能力,使其更适用于精准的令牌分类任务;然后计算大语言模型语义嵌入的语义相似度并作为新的监督信息融合到大语言模型的语义嵌入中,以改善去掩码大语言模型在恢复双向注意力时标签监督能力不足的问题,从而使模型获得更好的语义嵌入来计算对应的实体分数;最后分别计算实体和类型分数来识别命名实体。

4、进一步,所述方法包括以下步骤:

5、步骤一、一个人机对话语句表示为c={c1,…ci,…,cl},其中c1表示人机对话语句中的第1个字符,ci表示人机对话语句中的第i个字符,cl表示人机对话语句中的第l个字符,l表示字符数量;

6、步骤二、使用大语言模型获得人机对话语句c的令牌输入序列其中n表示将c转化为令牌之后的序列长度;

7、步骤三、使用大语言模型将输入序列x转化为初始的嵌入向量h={h1,…hi,…,hn},其中d是大语言模型中隐藏向量的维度;

8、步骤四、计算大语言模型中单个注意力头的注意力矩阵其中p是多头注意力机制中的头数,大语言模型的因果掩码mask被置为全零,wq,wk,wv分别为大语言模型的查询矩阵,键矩阵和值矩阵;

9、步骤五、将多个单头的注意力矩阵合并得到最终的多头注意力矩阵multihead(h)=concat(head1,…headi,…,headp)wo,其中wo是大语言模型的输出矩阵;

10、步骤六、计算hw+hba,其中w权重参数矩阵包含查询矩阵wq,键矩阵wk,值矩阵wv和输出矩阵wo,b和a是两个可学习的低秩矩阵,两者组成lora层;

11、步骤七、h经过多个堆叠的大语言模型的块的计算,得到最后一层的隐藏表征序列h;

12、步骤八、在h={h1,…hi,…,hn}中,计算每个hi都与整个h序列计算余弦相似度其中

13、步骤九、计算得到预测令牌是否应该是实体的预测标签序列其中ws是可学习的矩阵,

14、步骤十、计算y1与y'的交叉熵损失函数

15、

16、其中yi'是用来表示该令牌是否是命名实体的标签数据,yi'第一维值为1表示该令牌是命名实体,yi'第二维值为1表示该令牌不是命名实体;

17、步骤十一、计算得到预测令牌是什么实体类型的预测标签序列其中wl是一个可学习的权重矩阵,m是需要识别的命名实体类型的数量;

18、步骤十二、计算y2与y的交叉熵损失函数

19、

20、其中yi是用来表示该令牌是什么类型的命名实体的标签数据;

21、步骤十三、计算总损失函数其中λ1和λ2是超参;

22、步骤十四、重复执行步骤二至步骤十三,当小于指定的最小损失值后,结束计算;

23、步骤十五、计算预测的人机对话系统中的命名实体识别结果pred=argmax(softmax(y2))。

24、本专利技术的技术构思:在人机对话系统中的命名实体识别方法中,充分挖掘大语言模型的双向语义理解能力,并通过将语义相似度信息作为辅助信息,融合进大语言模型的语义理解中,提高大语言模型对于严格的令牌分类任务的准确性。

25、本专利技术的有益效果为:综合考虑了大语言模型的双向语义理解信息和语义相似度信息,提高了大语言模型在人机对话系统中的命名实体识别的准确度。

本文档来自技高网...

【技术保护点】

1.一种面向人机对话系统的命名实体识别方法,其特征在于,首先去除大语言模型的因果掩码以充分挖掘大语言模型的双向语义嵌入表征能力,使其更适用于精准的令牌分类任务;然后计算大语言模型语义嵌入的语义相似度并作为新的监督信息融合到大语言模型的语义嵌入中,以改善去掩码大语言模型在恢复双向注意力时标签监督能力不足的问题,从而使模型获得更好的语义嵌入来计算对应的实体分数;最后分别计算实体和类型分数来识别命名实体。

2.如权利要求1所述的一种面向人机对话系统的命名实体识别方法,其特征在于,所述方法包括以下步骤:

【技术特征摘要】

1.一种面向人机对话系统的命名实体识别方法,其特征在于,首先去除大语言模型的因果掩码以充分挖掘大语言模型的双向语义嵌入表征能力,使其更适用于精准的令牌分类任务;然后计算大语言模型语义嵌入的语义相似度并作为新的监督信息融合到大语言模型的语义嵌入中,以改善去掩...

【专利技术属性】
技术研发人员:杨旭华赵煜勇黄玉娇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1