一种多非结构化数据识别的智慧客服知识图谱系统技术方案

技术编号:37046228 阅读:19 留言:0更新日期:2023-03-29 19:24
本发明专利技术公开了一种多非结构化数据识别的智慧客服知识图谱系统,包括智慧客服系统,知识图谱知识库模块,用户语义理解模块,智能分词模块,语义纠错模块,文本预训练模块以及知识图谱知识库构建模块;智慧客服系统接收到用户输入的文字,语音及图片问题,用户语义理解模块将语音及图片问题内容转为文本,智能分词模块进行分词预处理,语义纠错模块进行去空值以及纠错预处理,将通过分词预处理,去空值以及纠错预处理后的文本放入知识图谱知识库模块中,通过文本预训练模块,找到用户关联问题答案回复,更新知识图谱;本发明专利技术增加了文本分词及用户提问纠错功能,可识别用户语音,文字及图片等提问方式,提高智慧客服机器人对用户提问的理解能力。提问的理解能力。提问的理解能力。

【技术实现步骤摘要】
一种多非结构化数据识别的智慧客服知识图谱系统


[0001]本专利技术涉及本数据处理
,具体涉及一种多非结构化数据识别的智慧客服知识图谱系统。

技术介绍

[0002]知识图谱(Knowledge Graph)在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0003]现有技术中构建的知识图谱无分词功能以及文本纠错功能,只针对用户提问语句或者日常使用语句,对于其他专业性质较强的语句无法进行有效识别,识别准确率较低;另外,在识别用户问题时无法识别语音、图片等非结构化数据的问题,用户体验感较低。

技术实现思路

[0004]为克服现有技术的缺陷,本专利技术提出一种多非结构化数据识别的智慧客服知识图谱系统,该系统可以自动识别用户语音、文本、等非结构化问法,利用智能分词技术全方位识别用户意图,采用智能分词将长难句及专业名词进行合理划分,对用户输错问题进行智能文本纠正,实现在只有少量数据的情况下,精准回答用户问题。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种多非结构化数据识别的智慧客服知识图谱系统,包括:智慧客服系统,知识图谱知识库模块,用户语义理解模块,智能分词模块,语义纠错模块,文本预训练模块以及知识图谱知识库构建模块;所述智慧客服系统接收到用户在对话框中的输入的文字,语音及图片问题内容,通过用户语义理解模块,深度学习理解用户输入的语音及图片问题内容,将所述语音及图片问题内容转为文本进行识别,再分别通过智能分词模块进行分词预处理,语义纠错模块进行去空值以及纠错预处理,将通过分词预处理,去空值以及纠错预处理后的文本放入所述知识图谱知识库模块中,通过文本预训练模块,找到用户关联问题答案并回复。
[0007]进一步的,构建所述知识图谱知识库模块具体步骤包括:
[0008]S21:通过对系统中语料库收集、分析及整理,构建语料库,通过对样本库、标注方案的系统性设计,构建文本样本库;
[0009]S22:将所述语料库和文本样本库信息进行划分,划分内容包括问题问法、问题答案、相似问以及关键词等,利用EBERT模型对无标注语料进行训练、获得包含丰富文本的语义表示;
[0010]S23:将语义表示利用BiLSTM

CRF进行深度学习,捕捉到输入的前后特征和句子级
的标签信息,把实体间的关系从文本中提取出来,形成实体与关系的关系抽取;
[0011]S24:建立实体与关系的层级,将获取的实体以及关系内容导入层级,形成知识图谱;
[0012]S25:建立知识图谱的主题词表和知识图谱知识库,将用户常用问题进行关联划分,将用户问题和知识图谱中实体、关系进行关联,完成知识图谱构建。
[0013]进一步的,所述知识图谱知识库模块根据用户所提问题的问题,对知识库中语料库内问题及答案等信息进行预处理,所述知识图谱知识库包括问题、答案、问题扩展问、问题所属模块以及问题关键字,将所述知识图谱知识库划分为问题表,关键字表,问题类型表,问题与关键字关联表以及问题与问题类型关联表;
[0014]所述知识图谱知识库模块创建知识图谱的主题词表,包括中文分词,词汇统计,词汇过滤以及常用词添加。
[0015]所述中文分词利用分词工具将句式划分为逐个单词,所述词汇统计主要包括词汇频数、包含某一词汇的文本数、样本语料文本总数等统计特征,所述词汇过滤包括词性过滤和停用词过滤,其中词性过滤采用名词作为候选词汇,停用词过滤是指根据停用词表剔除候选词中的停用词,所述常用词添加包括将客服领域内常用特定词汇词进行添加。
[0016]进一步的,所述用户语义理解模块根据用户在对话框中的输入的文字,语音及图片问题内容,通过对文字进行答案比对,生成答案输出;对语义问题进行语音转译,转译出用户提问文字,再将文字进行答案比对,生成答案输出;对用户图片问题进行图片识别,识别出图片中存在的文字,将文字进行答案比对,生成答案输出。
[0017]进一步的,所述智能分词模块对获取的用户问题进行音标转化,比对知识库中同音标词语,判断是否有同音不同字的问题出现,再根据用户问题与知识库中设定的语句进行比对匹配,看问题中是否存在该同音单词,若出现同音不同字的情况,对该单词进行校正。
[0018]进一步的,所述文本预训练模块利用EBERT模型对无标注语料进行训练,获取文本的语义表示,利用预训练模型为输入的用户提问问题提供语义关联权重以及参数向量。
[0019]进一步的,所述知识图谱知识库构建模块从文本预训练模块输出的文本里提取出实体并对每个实体做分类以及标签,利用BiLSTM

CRF模型,捕捉到输入的实体特征以及标签信息,把实体间的关系从文本中提取出来。
[0020]知识图谱实体类型包括:系统功能、系统子功能、系统业务、系统子业务、功能操作职责、功能用户以及功能操作步骤等;关系类型包括:属性、包含、执行以及用户。
[0021]进一步的,所述文本预训练模块在BERT预训练语言表征模型基础上引入相对位置编码,在预训练过程使用客服领域词典的全词遮蔽训练,形成EBERT预训练模型。
[0022]中文分词算法整体的网络结构底层采用文本预训练模型EBERT,中层为卷积神经网络CNN,上层采用条件随机场CRF的结构,底层EBERT解决了词语的领域embedding特征;中层通过叠加多个卷积神经网络CNN组合字embedding特征拼接,对词进行标签预测;上层CRF建立词序列的转移矩阵,通过维特比算法快速找到分词序列标签序列的最大概率,从而实现句子的分词。
[0023]进一步的,完成更新知识图谱的具体步骤包括:
[0024]S91:构建三元组关系,即第一实体,关系,第二实体;
[0025]S92:实体关系抽取与分类;
[0026]S93:完成实体关系抽取后,对两两实体关系进行分类,使用固定模板库对给定实体进行上下文匹配,如果满足模板对应关系,则作为实体对之间的关系;
[0027]S94:对新增数据进行信息抽取,具体包括实体抽取、属性抽取和实体间关系抽取,通过知识融合对这些抽取得到的数据进行梳理和规范化整合,完成实体关系抽取后,对增量知识进行动态本体构建和迭代更新,不断增加新的知识、删除旧的知识并相应调整知识图谱的结构。
[0028]与现有技术相比,本专利技术具有以下技术效果:
[0029](1)增加知识图谱系统中的智能数据分词模块,提升智慧客服机器人的问答效率;
[0030](2)增加用户问题提问中文本纠错模块,提升智慧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多非结构化数据识别的智慧客服知识图谱系统,其特征在于,所述智慧客服知识图谱系统包括:智慧客服系统,知识图谱知识库模块,用户语义理解模块,智能分词模块,语义纠错模块,文本预训练模块以及知识图谱知识库构建模块;所述智慧客服系统接收到用户在对话框中的输入的文字,语音及图片问题内容,通过用户语义理解模块,深度学习理解用户输入的语音及图片问题内容,将所述语音及图片问题内容转为文本进行识别,再分别通过智能分词模块进行分词预处理,语义纠错模块进行去空值以及纠错预处理,将通过分词预处理,去空值以及纠错预处理后的文本放入所述知识图谱知识库模块中,通过文本预训练模块,找到用户关联问题答案回复,更新知识图谱。2.根据权利要求1所述多非结构化数据识别的智慧客服知识图谱系统,其特征在于,构建所述知识图谱知识库模块的具体步骤包括:S21:通过对系统中语料库收集、分析及整理,构建语料库,通过对样本库、标注方案的系统性设计,构建文本样本库;S22:将所述语料库和文本样本库信息进行划分,划分内容包括问题问法、问题答案、相似问以及关键词等,利用EBERT模型对无标注语料进行训练、获得包含丰富文本的语义表示;S23:将语义表示利用BiLSTM

CRF进行深度学习,捕捉到输入的前后特征和句子级的标签信息,把实体间的关系从文本中提取出来,形成实体与关系的关系抽取;S24:建立实体与关系的层级,将获取的实体以及关系内容导入层级,形成知识图谱;S25:建立知识图谱的主题词表和知识图谱知识库,将用户常用问题进行关联划分,将用户问题和知识图谱中实体、关系进行关联,完成知识图谱知识库模块的构建。3.根据权利要求2所述多非结构化数据识别的智慧客服知识图谱系统,其特征在于,所述知识图谱知识库模块根据用户所提问题的问题,对知识库中语料库内问题及答案等信息进行预处理,所述知识图谱知识库包括问题、答案、问题扩展问、问题所属模块以及问题关键字,将所述知识图谱知识库划分为问题表,关键字表,问题类型表,问题与关键字关联表以及问题与问题类型关联表;所述知识图谱知识库模块创建知识图谱的主题词表,包括中文分词,词汇统计,词汇过滤以及常用词添加。4.根据权利要求3所述多非结构化数据识别的智慧客服知识图谱系统,其...

【专利技术属性】
技术研发人员:郑蓉蓉于霄洋薛文婷王晨辉李雨泰许大卫
申请(专利权)人:国家电网有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1