样本处理的方法、设备以及计算机可读存储介质技术

技术编号：37038426 阅读：12 留言：0更新日期：2023-03-29 19:17

本申请提供了一种样本处理的方法、设备以及计算机可读存储介质。该方法包括：获取第一样本集合；基于NLP对第一样本集合中的各个样本进行词性标注；对M个词语进行NLP词向量转换，得到M个词向量；对M个词向量进行筛选，得到N个词向量；根据N个词向量确定与N个词向量对应的N个词语，N个词语中部分词语的词性为动词，剩余部分词语的词性为非动词；根据N个词语中词性为动词的第一词语以及第一知识子图谱确定与第一词语对应的至少一个函数；根据N个词语中词性为非动词的第二词语以及第二知识子图谱确定与第二词语对应的至少一个数据。这样，有助于提高需求分析的处理效率，降低人力成本。成本。成本。

全部详细技术资料下载

【技术实现步骤摘要】
样本处理的方法、设备以及计算机可读存储介质

[0001]本申请涉及信息处理
，尤其涉及信息处理
一种样本处理的方法、设备以及计算机可读存储介质。

技术介绍

[0002]在业务系统开发中，其主要流程包括计划、需求分析、设计、开发、测试等过程。其中，需求分析是业务系统开发过程中的一个核心环节，需求分析是连接开发人员与用户的重要纽带，通过对用户提供的样本进行需求分析处理，可以确定出用户需要软件系统所具备的功能，从而，有助于开发出满足用户需求的系统。目前，对样本的处理主要依赖于需求分析工程师，通过需求分析工程师对用户提供的样本进行处理得到需求分析的结果，然而，在样本数据量较多的情况下，通过需求分析工程师进行处理工作效率有限，而且人力成本也比较高。

技术实现思路

[0003]本申请实施例提供了一种样本处理的方法、设备以及计算机可读存储介质，有助于提高需求分析的处理效率，降低人力成本。
[0004]第一方面，本申请实施例提供了一种样本处理的方法，所述方法包括：
[0005]获取第一样本集合，所述第一样本集合包括的样本是基于自然语言编写的语句；
[0006]基于自然语言处理NLP对所述第一样本集合中的各个样本进行词性标注，词性标注后所述第一样本集合中的各个样本总共对应Q个词语；
[0007]对M个词语进行NLP词向量转换，得到与所述M个词语一一对应的M个词向量，所述Q个词语包括所述M个词语，所述M个词语中部分词语的词性为动词，剩余部分词语的词性为非动词，Q大于或等于M；<...

【技术保护点】

【技术特征摘要】
1.一种样本处理的方法，其特征在于，所述方法包括：获取第一样本集合，所述第一样本集合包括的样本是基于自然语言编写的语句；基于自然语言处理NLP对所述第一样本集合中的各个样本进行词性标注，词性标注后所述第一样本集合中的各个样本总共对应Q个词语；对M个词语进行NLP词向量转换，得到与所述M个词语一一对应的M个词向量，所述Q个词语包括所述M个词语，所述M个词语中部分词语的词性为动词，剩余部分词语的词性为非动词，Q大于或等于M；对所述M个词向量进行筛选，得到N个词向量，N小于或等于M；根据所述N个词向量确定与所述N个词向量一一对应的N个词语，所述N个词语中部分词语的词性为动词，剩余部分词语的词性为非动词；根据所述N个词语中词性为动词的第一词语以及第一知识子图谱确定与所述第一词语对应的至少一个函数，所述第一知识子图谱由至少一个动词的节点以及与所述至少一个动词的节点连接的函数的节点组成，所述至少一个动词的节点对应的动词包括所述第一词语；根据所述N个词语中词性为非动词的第二词语以及第二知识子图谱确定与所述第二词语对应的至少一个数据，所述第二知识子图谱由至少一个非动词的节点以及与所述至少一个非动词的节点连接的数据的节点组成，所述至少一个非动词的节点对应的非动词包括所述第二词语；其中，知识图谱包括多个知识子图谱，所述多个知识子图谱包括所述第一知识子图谱和所述第二知识子图谱，Q、M、N为正整数。2.根据权利要求1所述的方法，其特征在于，在所述对M个词语进行NLP词向量转换，得到M个词向量之前，所述方法包括：过滤掉所述Q个词语中的无关的词语，得到所述M个词语。3.根据权利要求1所述的方法，其特征在于，所述对所述M个词向量进行筛选，得到N个词向量，包括：对所述M个词向量进行聚类，得到K组词向量，所述K组词向量与K个均值一一对应，K为小于M的正整数；筛选掉所述K组词向量中各组词向量中离所述各组词向量的均值的距离大于预设值的词向量，得到所述N个词向量。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据NLP确定所述第一样本集合中的各...

【专利技术属性】
技术研发人员：李伟，杨清广，陈纯香，谢一铭，
申请(专利权)人：广东优特云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人