针对领域特定的小语料库生成可解释嵌入的系统和方法技术方案

技术编号：39006081 阅读：18 留言：0更新日期：2023-10-07 10:37

针对领域特定的小语料库生成可解释嵌入的系统和方法。描述了用于针对基于文本的文档的领域特定的小语料库生成可解释和嵌入的方法(200)和系统(100)。处理模块(102)可以获得多个基于文本的文档，并且执行对多个基于文本的文档中的每一个的基本清理。此外，语义注入模块(104)可以使用语义注入技术来生成语义注入的语料库。嵌入生成模块(106)被配置成使用word2vec技术来计算注入语料库的最优维数d并且生成注入的最优维度嵌入E

全部详细技术资料下载

【技术实现步骤摘要】
针对领域特定的小语料库生成可解释嵌入的系统和方法

[0001]本主题总体上涉及一种用于针对领域特定的小语料库生成高度可解释且高效的嵌入的系统和方法。

技术介绍

[0002]在自然语言处理中，单词嵌入是用于文本分析的单词表示的词语，其典型地采用实值向量的形式，该实值向量编码了单词的含义，使得在向量空间中更接近的单词在含义上是相似的。单词嵌入是现代NLP流水线的基本构建块。已经做出了许多努力来针对公共领域中可用的大的通用数据集来学习丰富、高效且可解释的嵌入。然而，这些嵌入对于来自特定领域(诸如汽车、制造、维护和支持等)的小语料库具有有限的适用性。
[0003]单词的分布式表示(也被称为单词嵌入)已经被广泛地用于精通各种应用，诸如解析命名实体识别、图像字幕和情绪分析。它们还被证明在对诸如对单词相似性的判断以及由特定概念引发的大脑活动之类的认知操作进行建模方面是有效的。然而，这些表示包含单词到密集和连续空间中的实数向量的映射，并且因此固有地难以解释。
[0004]最近的研究表明，单词嵌入的稀疏性和非否定性是使它们可解释的两个重要特性。稀疏性使每个单词向量包含少量的活动(非零)维度，这帮助了在存在噪声的情况下增加它们的可分离性和稳定性。此外，这些研究在单词嵌入维度的连贯性方面定义了可解释性的概念。换句话说，如果单词嵌入的维度标示特定语义概念，则它们被认为是可解释的。然而，这些研究主要集中在预先训练的单词嵌入，如GloVe(Pennington等人，2014年)和word2vec(Mikolov等人，2013年)...

【技术保护点】

【技术特征摘要】
1.一种用于针对基于文本的文档的领域特定的小语料库生成可解释和嵌入的计算机实现方法(200)，所述方法(200)包括用于以下的步骤：由处理模块(102)获得并处理(202)多个基于文本的文档(101)；由语义注入模块(104)通过使用语义注入技术从多个基于文本的文档(101)来生成(204)语义注入的语料库；从所述语义注入的语料库来计算(206)最优维数因子(d)，并且使用单词向量技术来生成注入的最优维度嵌入；以及使用所述注入的最优维度嵌入来生成(208)语义注入的嵌入。2.如权利要求1所述的方法(200)，其中使用Word2Vec技术来生成单词向量。3.如权利要求1所述的方法(200)，其中在计算(206)所述最优维数因子(d)之后，整个语料库的词汇量从V增加到(V+M)，其中V是初始语料库的词汇量，并且M是注入的附加锚点词语。4.如权利要求1所述的方法(200)，其中所述方法(200)进一步包括...

【专利技术属性】
技术研发人员：G，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人