样本处理的方法、设备以及计算机可读存储介质技术

技术编号:37038426 阅读:12 留言:0更新日期:2023-03-29 19:17
本申请提供了一种样本处理的方法、设备以及计算机可读存储介质。该方法包括:获取第一样本集合;基于NLP对第一样本集合中的各个样本进行词性标注;对M个词语进行NLP词向量转换,得到M个词向量;对M个词向量进行筛选,得到N个词向量;根据N个词向量确定与N个词向量对应的N个词语,N个词语中部分词语的词性为动词,剩余部分词语的词性为非动词;根据N个词语中词性为动词的第一词语以及第一知识子图谱确定与第一词语对应的至少一个函数;根据N个词语中词性为非动词的第二词语以及第二知识子图谱确定与第二词语对应的至少一个数据。这样,有助于提高需求分析的处理效率,降低人力成本。成本。成本。

【技术实现步骤摘要】
样本处理的方法、设备以及计算机可读存储介质


[0001]本申请涉及信息处理
,尤其涉及信息处理
一种样本处理的方法、设备以及计算机可读存储介质。

技术介绍

[0002]在业务系统开发中,其主要流程包括计划、需求分析、设计、开发、测试等过程。其中,需求分析是业务系统开发过程中的一个核心环节,需求分析是连接开发人员与用户的重要纽带,通过对用户提供的样本进行需求分析处理,可以确定出用户需要软件系统所具备的功能,从而,有助于开发出满足用户需求的系统。目前,对样本的处理主要依赖于需求分析工程师,通过需求分析工程师对用户提供的样本进行处理得到需求分析的结果,然而,在样本数据量较多的情况下,通过需求分析工程师进行处理工作效率有限,而且人力成本也比较高。

技术实现思路

[0003]本申请实施例提供了一种样本处理的方法、设备以及计算机可读存储介质,有助于提高需求分析的处理效率,降低人力成本。
[0004]第一方面,本申请实施例提供了一种样本处理的方法,所述方法包括:
[0005]获取第一样本集合,所述第一样本集合包括的样本是基于自然语言编写的语句;
[0006]基于自然语言处理NLP对所述第一样本集合中的各个样本进行词性标注,词性标注后所述第一样本集合中的各个样本总共对应Q个词语;
[0007]对M个词语进行NLP词向量转换,得到与所述M个词语一一对应的M个词向量,所述Q个词语包括所述M个词语,所述M个词语中部分词语的词性为动词,剩余部分词语的词性为非动词,Q大于或等于M;<br/>[0008]对所述M个词向量进行筛选,得到N个词向量,N小于或等于M;
[0009]根据所述N个词向量确定与所述N个词向量一一对应的N个词语,所述N个词语中部分词语的词性为动词,剩余部分词语的词性为非动词;
[0010]根据所述N个词语中词性为动词的第一词语以及第一知识子图谱确定与所述第一词语对应的至少一个函数,所述第一知识子图谱由至少一个动词的节点以及与所述至少一个动词的节点连接的函数的节点组成,所述至少一个动词的节点对应的动词包括所述第一词语;
[0011]根据所述N个词语中词性为非动词的第二词语以及第二知识子图谱确定与所述第二词语对应的至少一个数据,所述第二知识子图谱由至少一个非动词的节点以及与所述至少一个非动词的节点连接的数据的节点组成,所述至少一个非动词的节点对应的非动词包括所述第二词语;
[0012]其中,知识图谱包括多个知识子图谱,所述多个知识子图谱包括所述第一知识子图谱和所述第二知识子图谱,Q、M、N为正整数。
[0013]在上述技术方案中,第一设备获取基于自然语言编写的第一样本集合包括的各个样本,第一样本集合包括的各个样本为用户提供的需求文本。第一设备基于自然语言处理(Natural Language Processing,NLP)对第一样本集合中的各个样本进行词性标注,对M个词语进行词向量转换,根据转换后的M个词向量进行筛选,根据筛选后的N个词向量确定与N个词向量对应的N个词语。第一设备根据N个词语中词性为动词的第一词语以及第一知识子图谱可以确定出与第一词语对应的至少一个函数,根据N个词语中词性为非动词的第二词语以及第二知识子图谱可以确定出与第二词语对应的至少一个数据。这样,通过第一设备对第一样本集合进行处理得到需求分析的结果,避免需求分析工程师对第一样本集合进行处理,有助于节省人力成本,也有助于提高需求分析的处理效率。
[0014]可选地,第一样本集合包括的样本是基于中文自然语言编写的语句。
[0015]可选地,第一样本集合中的各个样本属于同一领域。
[0016]可选地,知识图谱与第一样本集合中的各个样本属于同一领域。
[0017]可选地,第一设备根据第一样本集合中的各个样本内容确定第一样本集合所属领域,第一设备从保存的至少一个知识图谱中确定与第一样本集合所属领域对应的知识图谱。
[0018]可选地,第一设备根据第一样本集合中的各个样本内容确定第一样本集合所属领域标识,第一设备根据领域标识向第二设备发送请求,第二设备根据领域标识确定领域标识对应的知识图谱,第二设备将该领域标识对应的知识图谱发送给第一设备。
[0019]可选地,词语与函数之间的对应关系可以是:一个词语对应一个函数,或者,一个词语对应多个函数,或者,多个词语对应一个函数,例如,第一词语对应一个函数,或者,第一词语对应多个函数,或者,包括第一词语的多个词语对应一个函数。
[0020]可选地,词语与数据之间的对应关系可以是:一个词语对应一个数据,或者,一个词语对应多个数据,或者,多个词语对应一个数据,例如,第二词语对应一个数据,或者,第二词语对应多个数据,或者,包括第二词语的多个词语对应一个数据。
[0021]在一些可能的实现方式中,在所述对M个词语进行NLP词向量转换,得到M个词向量之前,所述方法包括:
[0022]过滤掉所述Q个词语中的无关的词语,得到所述M个词语。
[0023]可选地,根据词语的词性过滤掉无关的词语,例如,无关词语包括地名、人名、机构名、介词、助词。
[0024]可选地,根据词语出现的频率过滤掉无关的词语,例如,将出现的频率低于预设值的词语过滤掉,其中,预设值可以根据历史实验数据确定,例如,设置预设值为1。
[0025]在一些可能的实现方式中,所述对所述M个词向量进行筛选,得到N个词向量,包括:
[0026]对所述M个词向量进行聚类,得到K组词向量,所述K组词向量与K个均值一一对应,K为小于M的正整数;
[0027]筛选掉所述K组词向量中各组词向量中离所述各组词向量的均值的距离大于预设值的词向量,得到所述N个词向量。
[0028]可选地,采用余弦相似度算法计算各组词向量中的词向量距离各组词向量的均值之间的距离。
[0029]可选地,筛选后的N个词向量为K组词向量中各组词向量的词向量距离各组词向量的均值较接近的词向量。
[0030]在一些可能的实现方式中,所述方法还包括:根据NLP确定所述第一样本集合中的各个样本的句式结构;
[0031]按照所述各个样本的句式结构划分各个样本,得到所述各个样本总共对应的P个词语;
[0032]对所述P个词语进行筛选,得到L个词语,L小于或等于P;
[0033]根据H个词语中第三词语以及第三知识子图谱确定与所述第三词语对应的至少一个函数,所述第三知识子图谱由第一词语集合包括的至少一个词语的节点以及与所述第一词语集合包括的至少一个词语的节点连接的函数的节点组成,所述第一词语集合包括的至少一个词语包括所述第三词语,所述L个词语包括所述H个词语;
[0034]根据L

H个词语中第四词语以及第四知识子图谱确定与所述第四词语对应的至少一个数据,所述第四知识子图谱由第二词语集合包括的至少一个词语的节点以及与所述第二词语集合包括的至少一个词语的节点连接的数据的节点组成,所述第二词语集合包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本处理的方法,其特征在于,所述方法包括:获取第一样本集合,所述第一样本集合包括的样本是基于自然语言编写的语句;基于自然语言处理NLP对所述第一样本集合中的各个样本进行词性标注,词性标注后所述第一样本集合中的各个样本总共对应Q个词语;对M个词语进行NLP词向量转换,得到与所述M个词语一一对应的M个词向量,所述Q个词语包括所述M个词语,所述M个词语中部分词语的词性为动词,剩余部分词语的词性为非动词,Q大于或等于M;对所述M个词向量进行筛选,得到N个词向量,N小于或等于M;根据所述N个词向量确定与所述N个词向量一一对应的N个词语,所述N个词语中部分词语的词性为动词,剩余部分词语的词性为非动词;根据所述N个词语中词性为动词的第一词语以及第一知识子图谱确定与所述第一词语对应的至少一个函数,所述第一知识子图谱由至少一个动词的节点以及与所述至少一个动词的节点连接的函数的节点组成,所述至少一个动词的节点对应的动词包括所述第一词语;根据所述N个词语中词性为非动词的第二词语以及第二知识子图谱确定与所述第二词语对应的至少一个数据,所述第二知识子图谱由至少一个非动词的节点以及与所述至少一个非动词的节点连接的数据的节点组成,所述至少一个非动词的节点对应的非动词包括所述第二词语;其中,知识图谱包括多个知识子图谱,所述多个知识子图谱包括所述第一知识子图谱和所述第二知识子图谱,Q、M、N为正整数。2.根据权利要求1所述的方法,其特征在于,在所述对M个词语进行NLP词向量转换,得到M个词向量之前,所述方法包括:过滤掉所述Q个词语中的无关的词语,得到所述M个词语。3.根据权利要求1所述的方法,其特征在于,所述对所述M个词向量进行筛选,得到N个词向量,包括:对所述M个词向量进行聚类,得到K组词向量,所述K组词向量与K个均值一一对应,K为小于M的正整数;筛选掉所述K组词向量中各组词向量中离所述各组词向量的均值的距离大于预设值的词向量,得到所述N个词向量。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据NLP确定所述第一样本集合中的各...

【专利技术属性】
技术研发人员:李伟杨清广陈纯香谢一铭
申请(专利权)人:广东优特云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1