文本处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：28979815 阅读：18 留言：0更新日期：2021-06-23 09:26

本申请实施例提供了一种文本处理方法、装置、设备及计算机可读存储介质，包括：获取至少两个待处理文本；确定各待处理文本之间的相似度；根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第二文本；根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。该方法通过上述处理，从待处理文本中筛除了无三元组的样本和包括重复的三元组的样本，从而可以向人工样本标注提供有效的样本，提升了人工智能的知识图谱领域中的人工样本标注的效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质
本申请涉及计算机
，具体而言，本申请涉及一种文本处理方法、装置、设备及计算机可读存储介质。
技术介绍
自然语言处理技术早已深入了我们的日常生活。很多人都没有意识到，我们每天都在享受自然语言处理技术提供的便利，例如，拼音输入法。不仅如此，自然语言处理通过深度学习的方式影响了各个方向，极大推动了自然语言处理的发展，深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言，要做到精细深度的语义理解，单纯依靠数据标注与算力投入无法解决本质问题。例如，“冬天，能穿多少穿多少”与“夏天，能穿多少穿多少”，在计算机看来语义上并没有巨大差异，而实际上两句中的“穿多少”意思正好相反。因此，融入知识来进行知识指导的自然语言处理，是通向精细而深度的语言理解的必由之路。现有技术中，知识获取通过人工样本标注来提取三元组，即三元组关系，随着三元组的不断扩充，由于出现越来越多的无效样本，从而导致人工样本标注的效率降低。
技术实现思路
本申请针对现有的方式的缺点，提出一种文本处理方法、装置、设备及计算机可读存储介质，用以解决如何提升样本标注的效率的问题。第一方面，本申请提供了一种文本处理方法，包括：获取至少两个待处理文本；确定各待处理文本之间的相似度；根据各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；对至少两个第一文本进行识别，确定至少两个第一文本分别对应的类别，以及从至少两个第一文本确定出每一类别对应的第...

【技术保护点】
1.一种文本处理方法，其特征在于，包括：/n获取至少两个待处理文本；/n确定各待处理文本之间的相似度；/n根据所述各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；/n对所述至少两个第一文本进行识别，确定所述至少两个第一文本分别对应的类别，以及从所述至少两个第一文本确定出每一类别对应的第二文本；/n根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。/n

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：
获取至少两个待处理文本；
确定各待处理文本之间的相似度；
根据所述各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本；
对所述至少两个第一文本进行识别，确定所述至少两个第一文本分别对应的类别，以及从所述至少两个第一文本确定出每一类别对应的第二文本；
根据预设的实体词，从各第二文本中确定得到用于提取三元组的第二文本。

2.根据权利要求1所述的方法，其特征在于，在所述获取至少两个待处理文本之前，还包括：
获取原始样本；
基于预设的字符长度、预设的标识中至少一项，将所述原始样本拆分成所述至少两个待处理文本。

3.根据权利要求1所述的方法，其特征在于，所述确定各待处理文本之间的相似度，包括：
确定所述各待处理文本的词向量；
根据所述各待处理文本的词向量之间的夹角，确定所述各待处理文本之间的相似度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述各待处理文本之间的相似度和预设的相似度阈值，确定至少两个第一文本，包括：
针对一个待处理文本，当所述一个待处理文本与除所述一个待处理文本之外的任一待处理文本之间的相似度大于所述相似度阈值，则将所述一个待处理文本确定为第一文本。

5.根据权利要求1所述的方法，其特征在于，所述对所述至少两个第一文本进行识别，确定所述至少两个第一文本分别对应的类别，以及从所述至少两个第一文本确定出每一类别对应的第二文本，包括：
将所述至少两个第一文本的词向量进行聚类识别，确定所述至少两个第一文本分别对应的类别，以及所述每一类别对应的聚类中心点；
针对每一聚类中心点，将与所述每一聚类中心点距离最近的词向量对应的第一文本确定为第二文本。

6.根据权利要求1所述的方法，其特征在于，所述根据预设的实体词，从各第二文本中确定得到用于...

【专利技术属性】
技术研发人员：冯杨阳，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人