当前位置: 首页 > 专利查询>罗伯特专利>正文

针对领域特定的小语料库生成可解释嵌入的系统和方法技术方案

技术编号:39006081 阅读:18 留言:0更新日期:2023-10-07 10:37
针对领域特定的小语料库生成可解释嵌入的系统和方法。描述了用于针对基于文本的文档的领域特定的小语料库生成可解释和嵌入的方法(200)和系统(100)。处理模块(102)可以获得多个基于文本的文档,并且执行对多个基于文本的文档中的每一个的基本清理。此外,语义注入模块(104)可以使用语义注入技术来生成语义注入的语料库。嵌入生成模块(106)被配置成使用word2vec技术来计算注入语料库的最优维数d并且生成注入的最优维度嵌入E

【技术实现步骤摘要】
针对领域特定的小语料库生成可解释嵌入的系统和方法


[0001]本主题总体上涉及一种用于针对领域特定的小语料库生成高度可解释且高效的嵌入的系统和方法。

技术介绍

[0002]在自然语言处理中,单词嵌入是用于文本分析的单词表示的词语,其典型地采用实值向量的形式,该实值向量编码了单词的含义,使得在向量空间中更接近的单词在含义上是相似的。单词嵌入是现代NLP流水线的基本构建块。已经做出了许多努力来针对公共领域中可用的大的通用数据集来学习丰富、高效且可解释的嵌入。然而,这些嵌入对于来自特定领域(诸如汽车、制造、维护和支持等)的小语料库具有有限的适用性。
[0003]单词的分布式表示(也被称为单词嵌入)已经被广泛地用于精通各种应用,诸如解析命名实体识别、图像字幕和情绪分析。它们还被证明在对诸如对单词相似性的判断以及由特定概念引发的大脑活动之类的认知操作进行建模方面是有效的。然而,这些表示包含单词到密集和连续空间中的实数向量的映射,并且因此固有地难以解释。
[0004]最近的研究表明,单词嵌入的稀疏性和非否定性是使它们可解释的两个重要特性。稀疏性使每个单词向量包含少量的活动(非零)维度,这帮助了在存在噪声的情况下增加它们的可分离性和稳定性。此外,这些研究在单词嵌入维度的连贯性方面定义了可解释性的概念。换句话说,如果单词嵌入的维度标示特定语义概念,则它们被认为是可解释的。然而,这些研究主要集中在预先训练的单词嵌入,如GloVe(Pennington等人,2014年)和word2vec(Mikolov等人,2013年)。这些预先训练的嵌入是使用来自通用公共领域数据集(诸如维基百科和谷歌新闻)的数百万个文档来生成的,这些数据集包含数十亿个单词。此外,为了解释稀疏非负(下文中是“SNN”)单词嵌入的数千个维度并且理解它们所对应的意义,我们仍然需要投入人工努力并读取这些未经标注的维度的人类评判者。
[0005]近年来,诸如CRM、KPO、知识管理和Web监测服务之类的业务已经见证了结构化文本流的大量流入。这为使用该数据来发现“新兴主题”或“趋势”并分析它们的动态提供了机会,这可以帮助决策制定过程。新兴趋势分析的传统技术是执行该任务的第一选择,并且这些技术可以进一步被分类为监督方法和非监督方法。在文献中,现有的解决方案已经提出了使用单词的局部和主题特征来预测趋势的监督系统。为了克服定义特征的需要,非监督系统使用波动性测量,以通过比较词语跨不同时间切片的全局上下文来捕获词语含义中的改变。现有的解决方案已经广泛地使用了隐狄利克雷分配(Latent Dirichlet Allocation,LDA)、生成性概率模型,从而通过将单词围绕实体进行聚类或者通过检测它们随时间的演变来检测趋势。此外,这些解决方案已经使用了关联度量,诸如正逐点互信息(PPMI)和逐点互信息(PMI)作为基于共现频率的得分,以通过创建跨不同时间切片的单词嵌入来检测趋势。此外,这种解决方案尝试通过跨时间切片映射相同单词的嵌入或者跨时间切片联合地开发嵌入来解决该领域中的对齐问题。在实践中,传统的趋势分析技术大幅偏向于基于词频(term frequency

based)的方案,这些方案表现不良,尤其是在领域特定
的语料库的情况下,其中数据集跨时间切片不是均匀分布的。
[0006]相关专利申请202241005163公开了用于使用语义注入(semantic infusion)来分析类别数据集中的趋势的方法和系统。
附图说明
[0007]参考附图提供了详细描述,其中:
[0008]图1图示了根据本主题的示例实现方式的用于针对基于文本的文档的领域特定的小语料库来生成可解释和嵌入的系统环境;以及
[0009]图2图示了根据本主题的示例实现方式的用于针对基于文本的文档的领域特定的小语料库来生成可解释和嵌入的方法的流程图。
具体实施方式
[0010]本主题描述了用于针对基于文本的文档的领域特定的小语料库来生成可解释和嵌入的示例方法和系统。在本文中描述的示例方法和系统中,生成被命名为语义注入的嵌入(SEMIE)的单词嵌入。这些嵌入帮助增强SEMIE的可解释性(在语义相似性和不相似性两个方面)能力,同时在SNN嵌入空间中表示它们。
[0011]参考附图进一步描述了本主题。只要有可能,在附图和以下描述中使用相同的附图标记来指代相同或相似的部分。应当注意的是,本描述和附图仅仅说明了本主题的原理。因此,应理解,可以设计尽管在本文中没有明确地描述或示出但是涵盖了本主题原理的各种布置。此外,本文中记载了本主题的原理、方面和示例的所有陈述以及其具体示例旨在涵盖其等同物。
[0012]参考图1

2详细解释了方法和系统以之被实现的方式。虽然所描述的方法和系统的方面可以在任何数量的不同设备、环境和/或实现方式中实现,但是这些示例是在(一个或多个)以下系统的上下文中描述的。要注意的是,这里所示的本主题的附图用于说明性目的,并且没有按比例绘制。
[0013]图1图示了根据本主题的示例实现方式的用于针对基于文本的文档的领域特定的小语料库来生成可解释和嵌入的系统100环境。系统100可以是在各种各样的电子设备类型中找到的计算系统,用于处理代表用于各种目的的多种多样内容类型的信号和/或状态。系统100的示例可以包括但不限于膝上型电脑、笔记本计算机、台式计算机、服务器、蜂窝电话和个人数字助理。
[0014]系统100可以包括处理模块102。处理模块102可以包括微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于计算机可读指令来操纵信号和数据的任何其他设备。此外,可以通过使用专用硬件以及能够执行计算机可读指令的硬件来提供附图中所示的各种元件的功能,包括被标注为“(一个或多个)处理器”的任何功能块。
[0015]此外,系统100可以包括耦合到处理模块102的语义注入模块104和嵌入生成模块106。模块104和106可以被实现为硬件和编程的组合,例如用于实现模块104和106的各种功能性的可编程指令。在本文中描述的示例中,硬件和编程的这种组合可以以若干种不同的方式来实现。例如,嵌入生成模块106的编程可以是可执行指令。这种指令可以被存储在非
暂时性机器可读存储介质上,该存储介质可以与系统100直接耦合或者间接耦合(例如,通过联网装置)。在本示例中,该非暂时性机器可读存储介质可以存储指令,该指令在由处理器执行时实现模块104和106。在其他示例中,模块104和106可以被实现为电子电路。
[0016]模块104和106除了其他事物之外还包括例程、程序、对象、组件和数据结构,它们执行特定任务或者实现特定抽象数据类型。模块104和106也可以被实现为(一个或多个)信号处理器、(一个或多个)状态机、逻辑电路和/或基于操作指令来操纵信号的任何其他设备或组件。此外,模块104和106可以由硬件、由处理单元所执行的计算机可读指令、或由其组合来实现。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于针对基于文本的文档的领域特定的小语料库生成可解释和嵌入的计算机实现方法(200),所述方法(200)包括用于以下的步骤:由处理模块(102)获得并处理(202)多个基于文本的文档(101);由语义注入模块(104)通过使用语义注入技术从多个基于文本的文档(101)来生成(204)语义注入的语料库;从所述语义注入的语料库来计算(206)最优维数因子(d),并且使用单词向量技术来生成注入的最优维度嵌入;以及使用所述注入的最优维度嵌入来生成(208)语义注入的嵌入。2.如权利要求1所述的方法(200),其中使用Word2Vec技术来生成单词向量。3.如权利要求1所述的方法(200),其中在计算(206)所述最优维数因子(d)之后,整个语料库的词汇量从V增加到(V+M),其中V是初始语料库的词汇量,并且M是注入的附加锚点词语。4.如权利要求1所述的方法(200),其中所述方法(200)进一步包括...

【专利技术属性】
技术研发人员:G
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1