语料库建立方法及装置制造方法及图纸

技术编号：22075862 阅读：22 留言：0更新日期：2019-09-12 14:11

本申请提供了一种语料库建立方法及装置，涉及通信领域，能够快速简便的建立客服语料库。该方法包括：获取目标语料数据库以及关键词数据库，其中，目标语料数据库包括至少一个文本，关键词数据库包括至少一个第一关键词；确定至少一个文本中每个文本与至少一个第一关键词中每个第一关键词之间的相似度；根据每个文本、每个第一关键词以及每个文本与每个第一关键词之间的相似度，得到语料库。用于建立客服语料库。

The Method and Device of Building Corpus

全部详细技术资料下载

【技术实现步骤摘要】
语料库建立方法及装置
本申请涉及计算机领域，尤其涉及一种语料库建立方法及装置。
技术介绍
随着互联网的发展和普及，电子商务业务不断发展壮大，通过电子商务进行采购的用户数量持续增加，电子商务业务交易量不断增长。用户对电子商务的服务需求量也越来越大，由此而给电子商务的客服人员带来了越来越大的压力。为了减轻客服人员的压力，对于用户在进行电子商务业务的过程中常见的问题交由自动化的机器人客服处理。机器人客服对问题的处理一般为检测接收到的问题，根据问题关键词在客服语料库中查找对应的问题答案，返回相对应的问题答案。当前建立客服语料库的方法通常为人工建立，即人工采集电子商务领域常见的客服数据，对客服数据进行分析，确定客服领域常见的问题和各个问题对应的答案。将问题和答案存储在客服语料数据库中。当机器人客服需要回答用户提问的问题时，从客服语料数据库中匹配对应的答案，并返回给用户。这种建立客服语料库的方法需要耗费大量人力、物力和时间。并且比较依赖工作人员的工作经验。并且当前需要进行分析的客服数据量呈指数式增加，当前的建立客服语料库的方案也已无法满足需求。
技术实现思路
本申请实施例提供一种语料库建立方法及装置，用于实现自动建立客服语料库。为达到上述目的，本申请采用如下技术方案：第一方面，本申请提供了一种语料库建立方法，该方法包括：获取目标语料数据库以及关键词数据库，其中，目标语料数据库包括至少一个文本，关键词数据库包括至少一个第一关键词；确定至少一个文本中每个文本与至少一个第一关键词中每个第一关键词之间的相似度；根据每个文本、每个第一关键词以及每个文本与每个第一关键词之间的相似度，...

【技术保护点】
1.一种语料库建立方法，其特征在于，所述方法包括：获取目标语料数据库以及关键词数据库，其中，所述目标语料数据库包括至少一个文本，所述关键词数据库包括至少一个第一关键词；确定所述至少一个文本中每个文本与所述至少一个第一关键词中每个第一关键词之间的相似度；根据所述每个文本、所述每个第一关键词以及所述每个文本与所述每个第一关键词之间的相似度，得到语料库。

【技术特征摘要】
1.一种语料库建立方法，其特征在于，所述方法包括：获取目标语料数据库以及关键词数据库，其中，所述目标语料数据库包括至少一个文本，所述关键词数据库包括至少一个第一关键词；确定所述至少一个文本中每个文本与所述至少一个第一关键词中每个第一关键词之间的相似度；根据所述每个文本、所述每个第一关键词以及所述每个文本与所述每个第一关键词之间的相似度，得到语料库。2.根据权利要求1所述的方法，其特征在于，确定第一文本与所述至少一个第一关键词中每个第一关键词之间的相似度，包括：确定所述第一文本的至少一个第二关键词；所述至少一个第二关键词中每个第二关键词具有一个权重值；所述第一文本为所述至少一个文本中的任一个文本；确定所述每个第二关键词与所述每个第一关键词之间的第一相似度；根据所述第一相似度以及所述每个第二关键词的权重值，确定所述第一文本与所述每个第一关键词之间的相似度。3.根据权利要求1-2任一项所述的方法，其特征在于，所述根据所述每个文本、所述每个第一关键词以及所述每个文本与所述每个第一关键词之间的相似度，得到语料库，包括：从所述每个第一关键词中确定与文本的相似度大于预设阈值的目标第一关键词；确定至少一个文本中每个文本对应的第一三元组；所述第一三元组包括所述文本、所述目标第一关键词以及所述文本与所述每个第一关键词之间的相似度；将所述每个文本对应的第一三元组确定为所述语料库。4.根据权利要求2所述的方法，其特征在于，对所述第一文本分词，得到至少一个第二关键词，包括：对所述第一文本分词，得到至少一个第三关键词；标注所述至少一个第三关键词得到所述至少一个第二关键词；根据第二关键词的属性确定所述第二关键词在所述第一文本中的权重值；所述第二关键词的属性包括：所述第二关键词在所述第一文本中出现的频率、所述第二关键词在所述第一文本中的位置、所述第二关键词的标注。5.根据权利要求1-2任一项所述的方法，其特征在于，所述获取目标语料数据库，包括：获取包括多个文本的第一语料数据；填充所述第一语料数据中的空缺数据，得到第二语料数据；处理所述第二语料数据中的噪声数据，得到第三语料数据；所述噪声数据为所述第二语料数据中的错误数据或者存在误差的数据；将所述第三语料数据中包括的各个文本格式转换为目标文本格式得到所述目标语料数据库。6.根据权利要求1-2任一项所述的方法，其特征在于，所述获取目标语料数据库，包括：获取第四语料数据，其中，所述第四语料数据中包括多个文本；所述多个文本中包括多种问答格式的文本；所述问答格式包括：一问一答、一问多答、多问一答以及多问多答；根据预设数据规约规则处理所述第四语料数据得到第五语料数据；所述第五语料数据中的文本数量小于所述第四语料数据中的文本数量；将所述第五语料数据中多个文本中各个文本的问答格式转换为预设的问答格式，得到所述目标语料数据。7.一种语料库建立装置，其特征在于，所述装置包括：获取单元，用于获取目标语料数据库以及关键词数据库，其中，所述目标语料数据库包括至少一个文本，所述关...

【专利技术属性】
技术研发人员：张宾，孙喜民，周晶，于晓昆，
申请(专利权)人：国网电子商务有限公司，英大商务服务有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人