System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱的智能客服语义分析方法技术_技高网

基于知识图谱的智能客服语义分析方法技术

技术编号:40414238 阅读:14 留言:0更新日期:2024-02-20 22:31
本发明专利技术涉及数字数据处理技术领域,提出了基于知识图谱的智能客服语义分析方法,包括:获取半结构化数据、非结构化数据构建知识数据库;基于不同实体所在文本数据中表达语义的可替换程度确定任意语义替换距离;基于语义替换距离得到所有实体的聚类结果;根据每个聚类簇对应同类句法依存树中节点之间句法距离的差异程度确定位置优化因子;根据位置优化因子以及节点的深度信息确定依存权重因子;基于依存权重因子、词向量以及实体识别结果获取知识数据库中的关系抽取结果;基于关系抽取结果确定客户输入文本的意图识别结果;基于意图识别结果生成回复文本由智能客服发送至客户。本发明专利技术通过优化句法依存树提高知识数据库中关系抽取结果的准确率。

【技术实现步骤摘要】

本专利技术涉及数字数据处理,具体涉及基于知识图谱的智能客服语义分析方法


技术介绍

1、知识图谱是指通过符号形式结构化地描述物理世界中的实体以及实体之间的相互关系的网状知识结构,知识图谱的基本组成形式为<实体,关系,实体>的三元组。目前,知识图谱广泛应用于知识表征、知识获取、知识推理的研究应用中。

2、智能客服语义分析的目的是通过对客户输入的文本进行理解和分析,实现帮助智能客服准确理解客户的意图,并辅助智能客服提供相应的回答或解决方案。上述流程中的关键一点在于对客户输入文本的理解程度和分析的准确性,例如判断客户的问题类型,确定客户咨询的主要问题等。通过知识图谱对客户输入的文本进行知识推理和表达能够更好的帮助智能客服生成合理的回答,包括但不限于直接回复客户的问题、提供相关链接或文档、引导客户进行进一步操作等。然而由于知识图谱中三元组的组成形式,在面对文本中的复杂知识时难以进行知识表达,或者仅能进行粗粒度的表达,同时复杂的知识可能会涉及到大量的实体,导致构建的知识图谱过于冗余;从客户输入的文本到知识图谱,信息量不断被约减,只有最核心的内容被保留下来,忽略了原始文本中主体的具体经历等信息后,会产生额外的语义歧义。


技术实现思路

1、本专利技术提供基于知识图谱的智能客服语义分析方法,以解决由对话文本数据构建的句法依存树上节点冗余造成的关系抽取准确率低的问题,所采用的技术方案具体如下:

2、本专利技术一个实施例基于知识图谱的智能客服语义分析方法,该方法包括以下步骤:

3、获取在线购物系统中的半结构化数据、以及客户与智能客服产生的非结构化数据构建知识数据库;

4、基于文本数据集中不同实体所在文本数据中表达语义的可替换程度确定任意两个实体之间的语义替换距离;

5、采用聚类算法基于所述语义替换距离得到实体识别结果中所有实体的聚类结果;根据每个聚类簇内不同实体对应同类句法依存树中节点之间句法距离的差异程度确定每个句法依存树上每个节点的位置优化因子;

6、根据每个句法依存树上每个节点的位置优化因子以及每个节点的深度信息确定每个句法依存树对应文本数据中每个词语的依存权重因子;基于每个文本数据中每个词语的依存权重因子、词向量以及实体识别结果获取知识数据库中的关系抽取结果;

7、基于知识数据库中的关系抽取结果确定客户输入文本的意图识别结果;基于所述意图识别结果生成回复文本由智能客服发送至客户。

8、优选的,所述获取在线购物系统中的半结构化数据、以及客户与智能客服产生的非结构化数据构建知识数据库的方法为:

9、分别获取在线购物系统中的半结构化数据、以及客户与智能客服产生的非结构化数据;其中,所述半结构化数据为商家给出的商品详情页数据;所述非结构化数据为客户与智能客服沟通过程中产生的文本数据;

10、采用命名实体识别技术基于所述半结构化数据、非结构化数据得到实体识别结果,采用专家评价法基于实体识别结果确定实体的属性关系信息;将实体识别结果以及属性关系信息组成的数据库作为知识数据库。

11、优选的,所述基于文本数据集中不同实体所在文本数据中表达语义的可替换程度确定任意两个实体之间的语义替换距离的方法为:

12、将预设数量个客户与智能客服之间对话产生的文本数据组成的数据集组成文本数据集,将文本数据集中包含每个实体的文本数据组成的集合作为每个实体的归纳数据集;

13、将包含每个实体的每个属性的文本数量与每个实体的归纳数据集中文本数据数量的比值作为所述每个属性的频率;

14、将包含每个属性的文本数据的数量与文本数据集内文本数据数量比值的映射结果作为每个属性的比例因子,将预设参数与每个属性的比例因子的差值作为每个属性的语义可信度;

15、将每个实体的归纳数据集中每个属性的频率与为每个属性的语义可信度的乘积作为每个实体关于每个属性的重要性评估值;

16、将任意两个实体关于每个属性的重要性评估值之间差值的绝对值在任意两个实体中属性数量最大值上的累加作为两个实体之间的语义替换距离。

17、优选的,所述根据每个聚类簇内不同实体对应同类句法依存树中节点之间句法距离的差异程度确定每个句法依存树上每个节点的位置优化因子的方法为:

18、将每个实体与其余所有实体之间的语义替换距离按照升序顺序排列组成的序列作为每个实体的全局语义替换向量;

19、将所有实体的全局语义替换向量作为输入,将两个实体的全局语义替换向量之间的度量距离作为聚类时的度量距离,采用聚类算法得到实体识别结果中所有实体的聚类结果;

20、根据每个句法依存树上两个节点的节点特征向量之间的差异以及两个节点对应词语之间的句法距离确定每个句法依存树上两个节点之间的句法邻接距离;

21、将每个实体所在聚类簇内所有实体所在文本数据形成的句法依存树组成的集合记为同簇树集;将同簇树集中包含相同词语对应节点的句法依存树作为同类句法依存树;

22、根据同类句法依存树上相同词语对应节点与所述聚类簇内每个实体对应节点之间的句法邻接距离确定每个句法依存树上每个节点的位置优化因子。

23、优选的,所述根据每个句法依存树上两个节点的节点特征向量之间的差异以及两个节点对应词语之间的句法距离确定每个句法依存树上两个节点之间的句法邻接距离的方法为:

24、对于每个句法依存树上任意一个实体对应的节点,将每个实体对应的词向量与每个实体对应的全局语义替换向量首尾拼接得到的向量作为每个实体对应节点的节点特征向量;

25、对于每个句法依存树上任意一个非实体对应的节点,将每个非实体对应节点的词向量作为所述节点的节点特征向量;

26、将每个句法依存树作为输入,采用深度优先搜索dfs算法获取每个句法依存树上每个节点与其余节点之间的句法距离;

27、将每个句法依存树上每个节点与其余任意一个节点的节点特征向量之间的度量距离与两个节点之间的句法距离的乘积作为分子;将分子在每个句法依存树中所有其余节点上的累加结果作为分母;

28、将分子与分母的比值作为每个句法依存树上两个节点之间的句法邻接距离。

29、优选的,所述根据同类句法依存树上相同词语对应节点与所述聚类簇内每个实体对应节点之间的句法邻接距离确定每个句法依存树上每个节点的位置优化因子的方法为:

30、将每个句法依存树上每个节点作为一个目标节点,将每个句法依存树上每个实体对应节点与每个目标节点之间的句法邻接距离作为第一距离值;

31、确定包含每个目标节点对应词语的同类句法依存树,将所述同类句法依存树中每个句法依存树上每个实体对应节点与每个目标节点之间的句法邻接距离作为第二距离值;

32、将第一距离值与第二距离值之间差值的绝对值在所述同类句法依存树中每个句法依存树上的累加结果作为第一累加因子;将第一累加因子在每个句法依存树上所有实体本文档来自技高网...

【技术保护点】

1.基于知识图谱的智能客服语义分析方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述获取在线购物系统中的半结构化数据、以及客户与智能客服产生的非结构化数据构建知识数据库的方法为:

3.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述基于文本数据集中不同实体所在文本数据中表达语义的可替换程度确定任意两个实体之间的语义替换距离的方法为:

4.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据每个聚类簇内不同实体对应同类句法依存树中节点之间句法距离的差异程度确定每个句法依存树上每个节点的位置优化因子的方法为:

5.根据权利要求4所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据每个句法依存树上两个节点的节点特征向量之间的差异以及两个节点对应词语之间的句法距离确定每个句法依存树上两个节点之间的句法邻接距离的方法为:

6.根据权利要求4所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据同类句法依存树上相同词语对应节点与所述聚类簇内每个实体对应节点之间的句法邻接距离确定每个句法依存树上每个节点的位置优化因子的方法为:

7.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据每个句法依存树上每个节点的位置优化因子以及每个节点的深度信息确定每个句法依存树对应文本数据中每个词语的依存权重因子的方法为:

8.根据权利要求7所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据每个句法依存树上每个节点的深度信息确定每个句法依存树上每个节点的位深权重的方法为:

9.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述基于每个文本数据中每个词语的依存权重因子、词向量以及实体识别结果获取知识数据库中的关系抽取结果的方法为:

10.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述基于知识数据库中的关系抽取结果确定客户输入文本的意图识别结果的方法为:

...

【技术特征摘要】

1.基于知识图谱的智能客服语义分析方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述获取在线购物系统中的半结构化数据、以及客户与智能客服产生的非结构化数据构建知识数据库的方法为:

3.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述基于文本数据集中不同实体所在文本数据中表达语义的可替换程度确定任意两个实体之间的语义替换距离的方法为:

4.根据权利要求1所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据每个聚类簇内不同实体对应同类句法依存树中节点之间句法距离的差异程度确定每个句法依存树上每个节点的位置优化因子的方法为:

5.根据权利要求4所述的基于知识图谱的智能客服语义分析方法,其特征在于,所述根据每个句法依存树上两个节点的节点特征向量之间的差异以及两个节点对应词语之间的句法距离确定每个句法依存树上两个节点之间的句法邻接距离的方法为:

6.根据权利要求4所述的基于...

【专利技术属性】
技术研发人员:王亚屠静赵策苏岳万晶晶李伟伟颉彬周勤民张玥雷媛媛孙岩潘亮亮刘岩
申请(专利权)人:卓世科技海南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1