本发明专利技术公开了一种基于知识库的电商直播实时问答系统和方法,包括:包括:清洗数据模块、构建知识库模块、分词处理模块、定义意图模块和结果查询模块;其中,清洗数据模块,用于从数据源获取数据,分领域地存到结构化数据库中;构建知识库模块,把实体词和对应的近义词同时存入图数据库中;分词处理模块,获得了所有最小粒度的词,并获取最小粒度词的近义词;定义意图模块,把意图和针对的对象名称链接起来;结果查询模块,在数据库中查询相应的结果并返回给用户。本发明专利技术能够从元数据获得结构化知识数据,通过对结构化知识库的预处理,从而可以有效的提取结构化知识库的有效特征,从而可以在进行问答的时候高效地利用知识库,实现智能问答。智能问答。智能问答。
【技术实现步骤摘要】
一种基于知识库的电商直播实时问答系统和方法
[0001]本专利技术属于自然语言处理
,更具体的说是涉及一种基于知识库的电商直播实时问答系统和方法。
技术介绍
[0002]自从工业革命以来,机器代替人类,解放人们的双手已经成为现实,然而机器代替人类进行脑力劳动还未完全实现。而近年来人工智能技术随着大数据浪潮发展迅猛,人们自然把目光放在了可以由机器代替人类的脑力劳动的地方,其中智能问答就是典型的脑力劳动领域之一。智能问答又可以细分为不同的专业领域,例如智能客服,聊天机器人等等。近年来,电商直播带货发展迅猛,大量流量流向电商直播,同时随着人工智能技术的发展,智能主播也变得越来越普及。这一切都催促着电商直播问答系统的快速发展。
[0003]与其他传统的问答系统不同,电商直播问答系统有以下特点:1.首先,就是实时性。由于是直播系统,所以在问答过程中一定要保证实时性,以保证直播的用户体验。
[0004]2.其次就是较高的准确率。不同于开放性的聊天问答系统,电商问答系统普遍领域精细,内容精准,因此对电商直播问答系统又要求较高的准确性。
[0005]3.对于直播业务而言,知识总是实时更新的,昨天的故事肯能就是今天的卖点。因此电商直播问答系统,需要良好的扩展性。
[0006]虽然目前也有很多问答系统,然而能够完全满足上述三点要求的问答系统却很难找到。首先,传统的基于句子对的问答系统,很难覆盖语言的复杂性,准确率堪忧。近年来,随着深度学习技术的发展,以基于bert模型的bert家族深度学习模型问答系统得到了广泛的应用。然而对于bert家族模型而言,庞大的参数使其实时性能力大幅下降,而直播系统中的多对一的问答模式,无疑让人们对大参数模型望而生畏。虽然可以通过知识蒸馏来解决这类问题,但是会影响模型的准确性,对于良好的扩展性,就更无能为力了。自从谷歌提出知识图谱的概念以来,基于知识图谱的问答系统在问答系统领域刮起一阵知识图谱风暴,各领域的知识图谱的建立,使得问答系统的准确率得到了一定的提升,并且系统也有良好的扩展性。然而知识图谱的构建需要很大的投入,包括人力和时间成本。因此虽然理论上,基于知识图谱的问答系统可以做到良好的准确性和扩展性,但要真正做到一个这样的系统还是很难的。因此在电商直播问答系统,单纯的基于知识图谱的问答系统也是很难达到要求。
[0007]因此,如何提供一种基于知识库的电商直播实时问答系统和方法成为了本领域技术人员亟需解决的问题。
技术实现思路
[0008]有鉴于此,本专利技术提供了一种基于知识库的电商直播实时问答系统和方法,能够从元数据获得结构化知识数据,通过对结构化知识库的预处理,从而可以有效的提取结构
化知识库的有效特征,从而可以在进行问答的时候高效地利用知识库,实现智能问答。
[0009]为了实现上述目的,本专利技术采用如下技术方案:一种基于知识库的电商直播实时问答系统,包括:清洗数据模块、构建知识库模块、分词处理模块、定义意图模块和结果查询模块;其中,所述清洗数据模块,用于从数据源获取数据,根据具体业务设计schema,根据schema清洗数据,并对数据进行识别,组成结构化数据,分领域地存到结构化数据库中;所述构建知识库模块,把结构化数据,做一次分词处理,准备提前训练好词向量的词库,设置阈值筛选出近义词,把实体词和对应的近义词同时存入图数据库中;所述分词处理模块,在处理挖掘出来结构化数据时,做分词处理,利用分词器获得了所有最小粒度的词,并获取最小粒度词的近义词;所述定义意图模块,根据历史语料,进行聚类,挑选出具有代表性的问句;根据知识库定义意图;定义好意图后,把相应的意图名称存入图数据库,与相应的实体用关系边链接起来;再用关系边把意图和针对的对象名称链接起来;所述结果查询模块,当用户输入query时,首先对query进行全分词操作;获得所有分词结果后,去图数据查询最小词数据库,通过查询与最小分词为要素关系的长名词,获取到所有可能相关的长词;然后通过查询所有长词的所有要素是否被包含于问句中,最终匹配满足要求的长名词;获得要查询的长名词后,查询该长名词预先定义的所有意图,再把query处理,并输入到相应的模型中;模型会输出各个预先定义意图的输出值,取最大值为匹配到的用户意图;在数据库中查询相应的结果并返回给用户。
[0010]进一步的,schema包括相应的实体,属性,意图,以及它们之间的关系。
[0011]进一步的,筛选出近义词的方法为:对于所有挖掘出来的词,计算与词库词的余弦相似度并设定一定的阈值,挑选出可能的近义词;然后在原来的语料中,把原词用挑选出来的备选近义词替换掉,通过预训练的n
‑
gram语言模型和bert的掩码模型为评分器,设置阈值进一步筛选出可能的近义词;最终确定挖掘出来词的同义词。
[0012]进一步的,分词处理方法为:首先利用分词器把长词分成若干最小的词;用每个最小词的同义词去替换原来的最小词,得到一个新的长词;利用bert向量,去计算替换前的长词和替换后的长词的余弦相似度,设定阈值,如果低于阈值则认为小词在此不能替换,在该位置排除掉;利用bert的掩码模型去计算每个字符的掩码得分,设定阈值,筛选出符合条件的最小词的近义词;筛选出每个最小分词的近义词后,省略掉空字符;剩下的最小分词及相应的近义词,每一组词称为该长词的一个要素;最后把每个长词和它的要素们存进图数据库中。
[0013]一种基于知识库的电商直播实时问答方法,包括如下步骤:清洗数据,从数据源获取数据,根据具体业务设计schema,根据schema清洗数据,并对数据进行识别,组成结构化数据,分领域地存到结构化数据库中;构建知识库,把结构化数据,做一次分词处理,准备提前训练好词向量的词库,设置阈值筛选出近义词,把实体词和对应的近义词同时存入图数据库中;分词处理,在处理挖掘出来结构化数据时,做分词处理,利用分词器获得了所有最小粒度的词,并获取最小粒度词的近义词;
定义意图,根据历史语料,进行聚类,挑选出具有代表性的问句;根据知识库定义意图;定义好意图后,把相应的意图名称存入图数据库,与相应的实体用关系边链接起来;再用关系边把意图和针对的对象名称链接起来;结果查询,当用户输入query时,首先对query进行全分词操作;获得所有分词结果后,去图数据查询最小词数据库,通过查询与最小分词为要素关系的长名词,获取到所有可能相关的长词;然后通过查询所有长词的所有要素是否被包含于问句中,最终匹配满足要求的长名词;获得要查询的长名词后,查询该长名词预先定义的所有意图,再把query处理,并输入到相应的模型中;模型会输出各个预先定义意图的输出值,取最大值为匹配到的用户意图;在数据库中查询相应的结果并返回给用户。
[0014]本专利技术的有益效果在于:本专利技术首先需要从元数据获得结构化知识数据,然后通过对结构化知识库的预处理,从而可以有效的提取结构化知识库的有效特征,从而可以在进行问答的时候高效地利用知识库,实现智能问答。该系统把数据整理成“知识词典”,储存到数据库中。当本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于知识库的电商直播实时问答系统,其特征在于,包括:清洗数据模块、构建知识库模块、分词处理模块、定义意图模块和结果查询模块;其中,所述清洗数据模块,用于从数据源获取数据,根据具体业务设计schema,根据schema清洗数据,并对数据进行识别,组成结构化数据,分领域地存到结构化数据库中;所述构建知识库模块,把结构化数据,做一次分词处理,准备提前训练好词向量的词库,设置阈值筛选出近义词,把实体词和对应的近义词同时存入图数据库中;所述分词处理模块,在处理挖掘出来结构化数据时,做分词处理,利用分词器获得了所有最小粒度的词,并获取最小粒度词的近义词;所述定义意图模块,根据历史语料,进行聚类,挑选出具有代表性的问句;根据知识库定义意图;定义好意图后,把相应的意图名称存入图数据库,与相应的实体用关系边链接起来;再用关系边把意图和针对的对象名称链接起来;所述结果查询模块,当用户输入query时,首先对query进行全分词操作;获得所有分词结果后,去图数据查询最小词数据库,通过查询与最小分词为要素关系的长名词,获取到所有可能相关的长词;然后通过查询所有长词的所有要素是否被包含于问句中,最终匹配满足要求的长名词;获得要查询的长名词后,查询该长名词预先定义的所有意图,再把query处理,并输入到相应的模型中;模型会输出各个预先定义意图的输出值,取最大值为匹配到的用户意图;在数据库中查询相应的结果并返回给用户。2.根据权利要求1所述的一种基于知识库的电商直播实时问答系统,其特征在于,schema包括相应的实体,属性,意图,以及它们之间的关系。3.根据权利要求2所述的一种基于知识库的电商直播实时问答系统,其特征在于,筛选出近义词的方法为:对于所有挖掘出来的词,计算与词库词的余弦相似度并设定一定的阈值,挑选出可能的近义词;然后在原来的语料中,把原词用挑选出来的备选近义词替换掉,通过预训练的n
‑
gram语言模型和bert的掩码模型为评分器,设置阈值进一步筛选出可能...
【专利技术属性】
技术研发人员:梁晨阳,
申请(专利权)人:北京中科深智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。