System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于文本信息识别领域,尤其涉及一种基于问答机制的文本变体词识别方法、装置及设备。
技术介绍
1、在自然语言处理(nlp)领域,变体词的识别是一个高度复杂的任务,它远远超出了常规命名实体识别(ner)的范畴。变体词不仅包括传统的命名实体,如人名、地名等,还涵盖了拼写错误、网络新词、方言表达以及不良信息变体,如网络欺诈、仇恨言论、虚假信息等。这些变体词往往通过添加特殊符号、同音替换等方式生成,具有极高的隐蔽性和多样性,使得机器难以识别,具体类型见表1。这些变体词在非结构化文本数据中广泛存在,尤其在社交媒体、在线论坛和即时通讯软件上,它们的隐蔽性和多样性给信息监控带来了极大的困难。
2、表1常见变体词类型表
3、
4、传统的变体词识别方法,依赖于词典匹配、规则生成和基于特征的分类器,这些方法虽然在特定场景下有效,但它们通常需要大量的人工干预,以构建和维护复杂的规则和特征集。此外,这些方法在遇到新的或未知的变体词时,往往缺乏足够的泛化能力,需要频繁的更新和调整,这不仅增加了维护成本,也限制了它们在实时监控和大规模数据处理中的应用。随着深度学习技术的发展,基于神经网络的nlp模型,如bert、gpt等,已经在许多任务上取得了显著的成果。然而,这些模型在预训练阶段通常使用的语料库可能并未充分涵盖不良信息的变体样本,导致模型在实际应用中对这类变体词的识别能力有限。
5、此外,变体词在不同的上下文中可能具有不同的含义,这要求识别技术不仅要有广泛的知识储备,还要具备强大的上下文理解能力和高
6、因此,开发一种能够有效识别变体词,特别是不良信息变体的技术,对于推动nlp技术的发展和应用具有重要意义。这项技术需要能够自动适应新的变体词,具备良好的泛化能力和高效性,同时能够与现有的nlp模型结合,提升整体的系统性能。此外,这项技术还应当具备一定的可扩展性,能够根据不同的应用场景和需求进行定制和优化,以满足不同领域和行业的特定需求。
技术实现思路
1、针对上述问题,本专利技术提出了一种基于问答机制的文本变体词识别方法、装置及设备,不仅能够提高变体词识别的准确性,还能够有效地降低模型的维护成本,增强其在实际应用中的适应性和鲁棒性。
2、为达到上述目的,本专利技术的技术方案包括以下内容。
3、一种基于问答机制的文本变体词识别方法,所述方法包括:
4、构建变体词库,并通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强;
5、在数据增强后的变体词库上训练一变体词推理模型,所述变体词推理模型的网络结构包括:一语言表征模型和两个独立的全连接层;
6、将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率;
7、基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果。
8、进一步地,所述通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强,包括:
9、分别生成汉字x1与汉字x2的字形编码和拼音编码;
10、计算汉字x1与汉字x2在字形编码上的汉明距离hs;
11、计算汉字x1与汉字x2在拼音编码上的汉明距离hp;
12、基于所述汉明距离hs和所述汉明距离hp,得到汉字x1与汉字x2之间的相似度;
13、根据汉字x1与汉字x2之间的相似度,判定汉字x2是否为汉字x1的变体词。
14、进一步地,所述汉字x1与汉字x2之间的相似度
15、进一步地,训练所述变体词推理模块的损失函数包括:多标签损失函数。
16、进一步地,所述将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率,包括:
17、将问答模板与文本内容相连接后输入所述语言表征模型,得到每个token的bert表示hi;其中,所述语言表征模型包括:bert模型;
18、将bert表示hi分别输入两个独立的全连接层,得到该bert表示hi的起始位置概率pstart和结束位置概率pend。
19、进一步地,所述基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果,包括:
20、在一bert表示hi的起始位置概率pstart和一bert表示hi+j的结束位置概率pend都大于设定阈值θ的情况下,将表示集合所对应的词语作为一个变体词;其中,j为正整数;
21、令i=i+j+1,以再次执行下一个变体词的识别。
22、一种基于问答机制的文本变体词识别装置,所述装置包括:
23、变体词库构建模块,用于构建变体词库,并通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强;
24、训练与优化模块,同意在数据增强后的变体词库上训练一变体词推理模型,所述变体词推理模型的网络结构包括:一语言表征模型和两个独立的全连接层;
25、变体词推理模块,用于将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率;基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果。
26、一种电子设备,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现上述任一项所述的基于问答机制的文本变体词识别方法。
27、一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一项所述的基于问答机制的文本变体词识别方法。
28、与现有技术相比,本专利技术具有以下优势:
29、1)适应性:本专利技术通过利用问答机制根据场景设计问题模板,同时结合构建变体词库模块的动态更新机制,能够快速适应新的变体词,提高对未知变体词的泛化能力。通过实验结果分析,本专利技术能够支持表1中各种类型变体词的识别。
30、2)高效性:本专利技术通过问答机制定位文本中的相关信息,显著提高了变体词识别的准确度。尤其是随着模型技术的发展,结合预训练语言模型的强大上下文理解能力,识别的准确性得到进一步增强,确保了在处理大规模文本数据时的高性能表现。
31、3)应用前景:本专利技术的技术不仅能够提升nlp系统在变体词识别方面的能力,还能够广泛应用于信息安全等领域,具有重要的社会价值和商业潜力。
32、4)通过本专利技术可以有效地提升nlp系统在变体词识别方面的能力,为用户提供更加准确、安全和可靠的语言处理服务。同时,本专利技术也为网络环境的监管和维护提供了有力的技术支持,有助于构本文档来自技高网...
【技术保护点】
1.一种基于问答机制的文本变体词识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强,包括:
3.根据权利要求2所述的方法,其特征在于,所述汉字x1与汉字x2之间的相似度
4.根据权利要求1所述的方法,其特征在于,训练所述变体词推理模块的损失函数包括:多标签损失函数。
5.根据权利要求1所述的方法,其特征在于,所述将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果,包括:
7.一种基于问答机制的文本变体词识别装置,其特征在于,所述装置包括:
8.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-6任一项所述的基于问答机制的文本变体词识
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任一项所述的基于问答机制的文本变体词识别方法。
...【技术特征摘要】
1.一种基于问答机制的文本变体词识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强,包括:
3.根据权利要求2所述的方法,其特征在于,所述汉字x1与汉字x2之间的相似度
4.根据权利要求1所述的方法,其特征在于,训练所述变体词推理模块的损失函数包括:多标签损失函数。
5.根据权利要求1所述的方法,其特征在于,所述将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率,包括:
6.根据权利要求5所述的方...
【专利技术属性】
技术研发人员:段运强,井雅琪,侯炜,吕东,段荣昌,段东圣,佟玲玲,曹亚男,尚燕敏,任博雅,李鹏霄,尹鹏飞,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。