System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 在文本中进行自动主题检测的系统和方法技术方案_技高网

在文本中进行自动主题检测的系统和方法技术方案

技术编号:40106846 阅读:13 留言:0更新日期:2024-01-23 18:33
本发明专利技术涉及一种用于在文本中进行自动主题检测的方法和系统,该方法和系统可包括接收文档语料库的文本文档以及基于一个或多个句法模式从该文档中提取一个或多个短语。针对每个短语,本发明专利技术的实施方案可:对该短语的一个或多个字词应用字词嵌入神经网络,以获得一个或多个相应的字词嵌入向量;计算加权短语嵌入向量,以及基于该加权短语嵌入向量,计算短语显著性分数。本发明专利技术的实施方案随后可基于所计算的短语显著性分数来产生表示该文档中的一个或多个相应主题的一个或多个主题标签,并且可根据一个或多个主题标签与该语料库的业务领域的相关性来选择一个或多个主题标签。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术整体涉及自然语言处理(nlp)领域。更具体地,本专利技术涉及用于分析文本的方法和系统。相关申请和优先权要求的交叉引用本申请要求2021年5月12日提交的且名称为“system and method of automatictopic detection in text”的美国专利申请17/318,524的优先权。


技术介绍

1、联络中心参与与其客户的许多交互。客户交互的形式可大不相同,例如电话呼叫、聊天室、电子邮件、文本文档、网页等。客户交互的主题事项也可有所不同,并且可包括例如投诉、所需协助、通用问题等。

2、利用通常被称为主题检测系统的自动系统,可更高效地分析大量交互(例如,每天数千次)。主题检测系统可找到以及测量重复主题的频率,并且可根据其主题事项对相关主题和子主题进行分组。

3、在整个客户交互的语料库中找到重复主题或概念的当前可用主题检测系统容易受到噪声的影响,从而导致检测到主题检测系统的终端用户或分析师不一定感兴趣的主题,如本领域中通常所指代的。

4、组织联系中心中的这种噪声的示例可包括,例如重复短语,这些重复短语可能与组织的业务线不相关,或者可能与交互的核心主题事项不相关。过滤此类术语或短语的常见做法是通过维护“允许列表”和/或“拒绝列表”,该“允许列表”和/或“拒绝列表”可被手动地预定义和/或更新。然而,此类严格的解决方案可能无法很好地处理新的或意外的术语或短语。


技术实现思路

1、下表表1在本文中可用作对本文所用术语或表达的参考。

2、表1

3、

4、因此需要一种用于对由主题检测系统检测的主题标签进行自动评估和过滤的方法和系统。

5、如本文所详述的,本专利技术的实施方案可通过(a)评估在交互中包括的短语的显著性或质量,并且过滤掉低质量短语,以及(b)评估剩余短语在特定相关业务领域的上下文中的相关性,来改进由主题检测系统找到的概念或主题的质量或相关性。

6、根据一些实施方案,在第一阶段中,本专利技术的实施方案在与交互的核心主题事项最相关的意义上,可利用交互的动态来标记或选择对于交互高概率具有显著性的短语。例如,在该第一阶段中,本专利技术的实施方案可过滤出诸如“我的朋友”、“感觉自由”、“请稍等片刻”以及“姓名和电话号码”之类的短语,这些短语可能在交互的上下文中缺乏显著性。

7、另外,在第二阶段中,本专利技术的实施方案可利用多承租人、基于云的基础架构的设置来找到在交互中所描绘的哪些概念更高概率具有与特定承租人的业务线相关性。例如,在该第二阶段中,本专利技术的实施方案可过滤出诸如“收集信息”、“管理资源”和“回答问题”之类的主题或概念,这些主题或概念可能不相关,或者在特定承租人的上下文中可能过于笼统且不能提供信息。

8、如本文所详述的,本专利技术的实施方案可将根据显著性的短语过滤以及根据相关性的概念过滤集成到系统中,该系统可分析承租人交互,并且促进对承租人(例如,呼叫中心的用户或分析师)感兴趣的重复主题的探索。

9、本专利技术的实施方案可包括由至少一个处理器在文本中进行自动主题检测的方法。该方法的实施方案可包括接收第一多个文本文档中的至少一个第一文本文档,基于一个或多个句法模式,从该第一文本文档中提取一个或多个短语,其中每个短语可包括一个或多个字词。

10、针对每个短语,本专利技术的实施方案可对该短语的一个或多个字词应用字词嵌入神经网络(nn),以获得一个或多个相应的字词嵌入向量。该一个或多个字词嵌入向量可适于对该短语的该一个或多个对应字词的含义进行编码。实施方案然后可基于该一个或多个字词嵌入向量,计算加权短语嵌入向量,以及基于该加权短语嵌入向量,计算短语显著性分数。本专利技术的实施方案可随后基于所计算的短语显著性分数,产生表示该至少一个第一文本文档的一个或多个相应主题的一个或多个主题标签。

11、本专利技术的实施方案可通过以下方式来计算加权短语嵌入向量:针对该短语的每个字词,基于该字词在该第一多个文本文档中的出现频率来计算字词权重值;以及基于该相关字词权重值,将该加权短语嵌入向量计算为该相关字词嵌入向量的加权平均值。

12、本专利技术的实施方案可通过将该一个或多个短语布置为无向短语图中的顶点来计算短语显著性分数,其中每对顶点可由边连接;针对一条或多条边,计算表示对应的所连接的顶点的两个短语之间的语义相似性的相似性权重;以及针对每个短语,基于所连接的边的该相似性权重计算短语显著性分数。

13、本专利技术的实施方案可通过以下方式来指派表示两个短语之间的语义相似性的相似性权重:计算该两个短语的字词嵌入向量之间的余弦相似性值;以及将该余弦相似性值作为相似性权重分配给连接该两个短语的顶点的边。

14、本专利技术的实施方案可在迭代过程中计算短语显著性分数,其中每次迭代可包括基于:(a)连接到相应顶点的边的该相似性权重,和(b)至少一个第二短语的短语显著性分数,计算第一短语的短语显著性分数;以及基于所计算的该第一短语的该短语显著性分数,更新该至少一个第二短语的该短语显著性分数。

15、本专利技术的实施方案可通过以下方式来产生一个或多个主题标签:从该第一多个文档获得多个短语和相应的多个短语显著性分数;选择对应于该最高短语显著性分数的该多个短语的第一子集;以及基于所计算的余弦相似性值,将该短语子集聚类为聚类,其中每个聚类表示唯一的主题标签。

16、根据本专利技术的一些实施方案,该第一多个文档涉及第一业务领域。

17、本专利技术的实施方案可获得涉及至少一个第二业务领域的第二多个文档,并且针对每个主题标签:计算前景概率值,该前景概率值表示该主题标签表示在该第一多个文档中包括的主题的概率;计算背景概率值,该背景概率值表示该主题标签表示在该第一多个文档和该第二多个文档中的一者中包括的主题的概率;以及基于该前景概率值和该背景概率值计算相关性分数,该相关性分数表示该主题标签与该第一业务领域的相关性。

18、本专利技术的实施方案可通过以下方式来计算前景概率值:执行该主题标签的模糊搜索,以对该第一多个文档中的包括该相关主题的文档的数量n1进行计数;以及将该前景概率值计算为n1与在该第一业务领域中包括的文档的数量之间的比率。

19、本专利技术的实施方案可通过以下方式来计算背景概率值:执行该主题标签的模糊搜索,以对该第一多个文档和该第二多个文档中的包括该相关主题的文档的数量n2进行计数;以及将该背景概率值计算为n2与在该第一业务领域和该至少一个第二业务领域中包括的文档的数量之间的比率。

20、本专利技术的实施方案可经由用户界面(ui)接收与在该第一多个文档中存在的主题有关的至少一个查询;以及基于该一个或多个相关主题标签产生对该查询的响应。附加地或另选地,本专利技术的实施方案可基于该一个或多个主题标签和对应的相关性分数产生对该查询的响应。

21、本专利技术的实施方案可包括用于在文本中进行自动主题检测的系统。该系统的实施方案可包括:非暂态存储器设备本文档来自技高网...

【技术保护点】

1.一种由至少一个处理器在文本中进行自动主题检测的方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述一个或多个字词嵌入向量适于对所述短语的所述一个或多个对应字词的含义进行编码。

3.根据权利要求1所述的方法,其中计算加权短语嵌入向量包括:

4.根据权利要求1所述的方法,其中计算短语显著性分数包括:

5.根据权利要求4所述的方法,其中指派表示两个短语之间的语义相似性的相似性权重包括:

6.根据权利要求4所述的方法,其中迭代地执行计算短语显著性分数,其中每次迭代包括:

7.根据权利要求5所述的方法,其中产生一个或多个主题标签包括:

8.根据权利要求7所述的方法,其中所述第一多个文档涉及第一业务领域,并且其中所述方法还包括:

9.根据权利要求8所述的方法,其中计算前景概率值包括:

10.根据权利要求8所述的方法,其中计算背景概率值包括:

11.根据权利要求1所述的方法,所述方法还包括:

12.根据权利要求8所述的方法,所述方法还包括:

>13.一种用于在文本中进行自动主题检测的系统,所述系统包括:非暂态存储器设备,其中存储有指令代码模块,和至少一个处理器,所述处理器与所述存储器设备相关联,并且被配置为执行所述指令代码模块,当执行所述指令代码模块时,所述至少一个处理器被配置为:

14.根据权利要求13所述的系统,其中所述至少一个处理器被配置为通过以下方式来计算加权短语嵌入向量:

15.根据权利要求13所述的系统,其中所述至少一个处理器被配置为通过以下方式来计算短语显著性分数:

16.根据权利要求15所述的系统,其中所述至少一个处理器被配置为通过以下方式指派表示两个短语之间的语义相似性的相似性权重:

17.根据权利要求13所述的系统,其中所述第一多个文档涉及第一业务领域,并且其中所述至少一个处理器被配置为:

18.根据权利要求17所述的方法,其中所述至少一个处理器被配置为通过以下方式来计算前景概率值:

19.根据权利要求17所述的方法,其中所述至少一个处理器被配置为通过以下方式来计算背景概率值:

20.根据权利要求17所述的方法,其中所述至少一个处理器被配置为:

...

【技术特征摘要】
【国外来华专利技术】

1.一种由至少一个处理器在文本中进行自动主题检测的方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述一个或多个字词嵌入向量适于对所述短语的所述一个或多个对应字词的含义进行编码。

3.根据权利要求1所述的方法,其中计算加权短语嵌入向量包括:

4.根据权利要求1所述的方法,其中计算短语显著性分数包括:

5.根据权利要求4所述的方法,其中指派表示两个短语之间的语义相似性的相似性权重包括:

6.根据权利要求4所述的方法,其中迭代地执行计算短语显著性分数,其中每次迭代包括:

7.根据权利要求5所述的方法,其中产生一个或多个主题标签包括:

8.根据权利要求7所述的方法,其中所述第一多个文档涉及第一业务领域,并且其中所述方法还包括:

9.根据权利要求8所述的方法,其中计算前景概率值包括:

10.根据权利要求8所述的方法,其中计算背景概率值包括:

11.根据权利要求1所述的方法,所述方法还包括:

12.根据权利要求8所述的方法,所述方法还包括:

13.一种用于...

【专利技术属性】
技术研发人员:E·奥巴赫A·法扎科夫A·马扎L·海金
申请(专利权)人:吉尼赛斯云服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1