语料库建立方法及装置制造方法及图纸

技术编号:22075862 阅读:22 留言:0更新日期:2019-09-12 14:11
本申请提供了一种语料库建立方法及装置,涉及通信领域,能够快速简便的建立客服语料库。该方法包括:获取目标语料数据库以及关键词数据库,其中,目标语料数据库包括至少一个文本,关键词数据库包括至少一个第一关键词;确定至少一个文本中每个文本与至少一个第一关键词中每个第一关键词之间的相似度;根据每个文本、每个第一关键词以及每个文本与每个第一关键词之间的相似度,得到语料库。用于建立客服语料库。

The Method and Device of Building Corpus

【技术实现步骤摘要】
语料库建立方法及装置
本申请涉及计算机领域,尤其涉及一种语料库建立方法及装置。
技术介绍
随着互联网的发展和普及,电子商务业务不断发展壮大,通过电子商务进行采购的用户数量持续增加,电子商务业务交易量不断增长。用户对电子商务的服务需求量也越来越大,由此而给电子商务的客服人员带来了越来越大的压力。为了减轻客服人员的压力,对于用户在进行电子商务业务的过程中常见的问题交由自动化的机器人客服处理。机器人客服对问题的处理一般为检测接收到的问题,根据问题关键词在客服语料库中查找对应的问题答案,返回相对应的问题答案。当前建立客服语料库的方法通常为人工建立,即人工采集电子商务领域常见的客服数据,对客服数据进行分析,确定客服领域常见的问题和各个问题对应的答案。将问题和答案存储在客服语料数据库中。当机器人客服需要回答用户提问的问题时,从客服语料数据库中匹配对应的答案,并返回给用户。这种建立客服语料库的方法需要耗费大量人力、物力和时间。并且比较依赖工作人员的工作经验。并且当前需要进行分析的客服数据量呈指数式增加,当前的建立客服语料库的方案也已无法满足需求。
技术实现思路
本申请实施例提供一种语料库建立方法及装置,用于实现自动建立客服语料库。为达到上述目的,本申请采用如下技术方案:第一方面,本申请提供了一种语料库建立方法,该方法包括:获取目标语料数据库以及关键词数据库,其中,目标语料数据库包括至少一个文本,关键词数据库包括至少一个第一关键词;确定至少一个文本中每个文本与至少一个第一关键词中每个第一关键词之间的相似度;根据每个文本、每个第一关键词以及每个文本与每个第一关键词之间的相似度,得到语料库。本申请实施例提供的语料库建立方法,获取目标语料数据库以及关键词数据库,其中,目标语料数据库包括至少一个文本,关键词数据库包括至少一个第一关键词。确定至少一个文本中每个文本与至少一个第一关键词中每个第一关键词之间的相似度;将文本和第一关键词通过相似度进行关联,可以通过多个关键词以及相似度查询检索到对应的文本。根据每个文本、每个第一关键词以及每个文本与每个第一关键词之间的相似度,得到语料库,保证了建立语料库的过程大部分可以自动实现,能够快速简便的建立语料库。第二方面,本申请提供了一种语料库建立装置,该装置包括:获取单元,用于获取目标语料数据库以及关键词数据库,其中,目标语料数据库包括至少一个文本,关键词数据库包括至少一个第一关键词;处理单元,用于确定至少一个文本中每个文本与至少一个第一关键词中每个第一关键词之间的相似度;处理单元,还用于根据每个文本、每个第一关键词以及每个文本与每个第一关键词之间的相似度,得到语料库。第三方面,本申请提供了一种语料库建立系统,该系统包括:语料库建立装置。其中,该语料库建立装置用于执行上述第一方面及其任意一种实现方式该的语料库建立方法。第四方面,本申请提供了一种语料库建立装置,该装置包括:处理器和通信接口;该通信接口和该处理器耦合,该处理器用于运行计算机程序或指令,以实现上述第一方面及其任意一种实现方式所述的语料库建立方法。第五方面,本申请提供了一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有指令,当该指令被执行时,实现上述第一方面及其任意一种实现方式所述的语料库建立方法。第六方面,本申请提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述第一方面及其任意一种实现方式所述语料库建立方法。第七方面,本申请实施例提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所述的语料库建立方法。具体的,本申请实施例中提供的芯片还包括存储器,用于存储计算机程序或指令。附图说明图1为本申请提供的一种语料库建立系统的系统架构图;图2为本申请实施例提供的一种语料库建立方法的流程图一;图3为本申请实施例提供的一种语料库建立方法的流程图二;图4为本申请实施例提供的一种语料库建立方法的流程图三;图5为本申请实施例提供的一种语料库建立方法的流程图四;图6为本申请实施例提供的一种语料库建立方法的流程图五;图7为本申请实施例提供的一种语料库建立方法的流程图六;图8为本申请实施例提供的一种语料库建立装置的结构示意图;图9为本申请实施例提供的另一种语料库建立装置的结构示意图。具体实施方式下面将结合附图对本申请提供的语料库建立方法及装置进行详细的描述。本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。此外,本申请的描述中所提到的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。以下,对本申请涉及的名词进行解释,以方便读者理解:电子商务客服数据处理标准化技术:模式匹配:常用正则表达式匹配文本中出现的待处理的字符串,然后根据实际任务场景进行替换、过滤或者补齐等操作,去除数字,英文、标点符号等,使文本更符合实际任务的真是场景。汉语语言模型n-gram分析:n-gram分析指的是将字符串按一定最小单元分割为长度为n的连续子串,保留最有意义的子串,以方便后续分析。如当n=1时(称为unigram),以单个字母为最小单元,单词“flood”可以被分割“f”、“l”、“o”、“o”、“d”。对于更大的n,比如n=5,在单词“flooding”的五元连续子串中,显然需要保留“flood”。不过在n=4时,“flooding”中的“ding”也可能被判断为一个有意义的词。对于一个完整的句子而言,常用单词作为最小分割单元。电子商务客服语料标注技术:领域词匹配:使用领域词典,匹配文本,出现过某个领域的词就归为某一类,若无法提供领域词典,可通过关键词提取相关算法,如词频-逆文本频率指数(termfrequency–inversedocumentfrequency,TF-IDF)算法,左右熵算法、互信息算法、textrank算法等提取出文本集中的关键词,去重后作为领域词典来使用。建立机器学习分类模型:通过已有标注好的大量文本集,使用机器学习算法如支持向量机(supportvectormachine,SVM)、随机森林、邻近算法(k-NearestNeighbor,KNN)等训练分类模型,达到了所要求的评估要求后即可使用训练好的模型来自动标注新未分类的语料。建立深度学习分类模型:通过已有标注好的大量文本集,使用深度学习相关算法,如卷积神经网络(convolutionalneuralnetworks,CNN)、循环神经网络(re本文档来自技高网...

【技术保护点】
1.一种语料库建立方法,其特征在于,所述方法包括:获取目标语料数据库以及关键词数据库,其中,所述目标语料数据库包括至少一个文本,所述关键词数据库包括至少一个第一关键词;确定所述至少一个文本中每个文本与所述至少一个第一关键词中每个第一关键词之间的相似度;根据所述每个文本、所述每个第一关键词以及所述每个文本与所述每个第一关键词之间的相似度,得到语料库。

【技术特征摘要】
1.一种语料库建立方法,其特征在于,所述方法包括:获取目标语料数据库以及关键词数据库,其中,所述目标语料数据库包括至少一个文本,所述关键词数据库包括至少一个第一关键词;确定所述至少一个文本中每个文本与所述至少一个第一关键词中每个第一关键词之间的相似度;根据所述每个文本、所述每个第一关键词以及所述每个文本与所述每个第一关键词之间的相似度,得到语料库。2.根据权利要求1所述的方法,其特征在于,确定第一文本与所述至少一个第一关键词中每个第一关键词之间的相似度,包括:确定所述第一文本的至少一个第二关键词;所述至少一个第二关键词中每个第二关键词具有一个权重值;所述第一文本为所述至少一个文本中的任一个文本;确定所述每个第二关键词与所述每个第一关键词之间的第一相似度;根据所述第一相似度以及所述每个第二关键词的权重值,确定所述第一文本与所述每个第一关键词之间的相似度。3.根据权利要求1-2任一项所述的方法,其特征在于,所述根据所述每个文本、所述每个第一关键词以及所述每个文本与所述每个第一关键词之间的相似度,得到语料库,包括:从所述每个第一关键词中确定与文本的相似度大于预设阈值的目标第一关键词;确定至少一个文本中每个文本对应的第一三元组;所述第一三元组包括所述文本、所述目标第一关键词以及所述文本与所述每个第一关键词之间的相似度;将所述每个文本对应的第一三元组确定为所述语料库。4.根据权利要求2所述的方法,其特征在于,对所述第一文本分词,得到至少一个第二关键词,包括:对所述第一文本分词,得到至少一个第三关键词;标注所述至少一个第三关键词得到所述至少一个第二关键词;根据第二关键词的属性确定所述第二关键词在所述第一文本中的权重值;所述第二关键词的属性包括:所述第二关键词在所述第一文本中出现的频率、所述第二关键词在所述第一文本中的位置、所述第二关键词的标注。5.根据权利要求1-2任一项所述的方法,其特征在于,所述获取目标语料数据库,包括:获取包括多个文本的第一语料数据;填充所述第一语料数据中的空缺数据,得到第二语料数据;处理所述第二语料数据中的噪声数据,得到第三语料数据;所述噪声数据为所述第二语料数据中的错误数据或者存在误差的数据;将所述第三语料数据中包括的各个文本格式转换为目标文本格式得到所述目标语料数据库。6.根据权利要求1-2任一项所述的方法,其特征在于,所述获取目标语料数据库,包括:获取第四语料数据,其中,所述第四语料数据中包括多个文本;所述多个文本中包括多种问答格式的文本;所述问答格式包括:一问一答、一问多答、多问一答以及多问多答;根据预设数据规约规则处理所述第四语料数据得到第五语料数据;所述第五语料数据中的文本数量小于所述第四语料数据中的文本数量;将所述第五语料数据中多个文本中各个文本的问答格式转换为预设的问答格式,得到所述目标语料数据。7.一种语料库建立装置,其特征在于,所述装置包括:获取单元,用于获取目标语料数据库以及关键词数据库,其中,所述目标语料数据库包括至少一个文本,所述关...

【专利技术属性】
技术研发人员:张宾孙喜民周晶于晓昆
申请(专利权)人:国网电子商务有限公司英大商务服务有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1