一种文本的标注方法及装置制造方法及图纸

技术编号：26479191 阅读：23 留言：0更新日期：2020-11-25 19:23

本发明专利技术公开了一种文本的标注方法，包括：获取与原始文本对应的词序列；将所述词序列进行转化和映射，得到实体标注向量；统计所述实体标注向量中预设实体信息的数量；若所述数量大于等于预设的阈值时，将所述原始文本标注为异常文本。上述的标注方法中，通过实体标注向量中预设实体信息的数量与所述预设的阈值进行比较确定所述原始文本的标注信息的，标注的方法一致，避免了人工标注会耗费大量的人力和时间，而且由于个人主观想法的不同，导致标注的结果不理想的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本的标注方法及装置
本专利技术涉及人工智能
，尤其涉及一种文本的标注方法及装置。
技术介绍
在自然语言处理领域，通过大量的训练样本对基于神经网络构建的分类模型进行训练，以实现对文本的分类，但是如何获取大量可靠的训练样本是一个难题，完善可靠的训练样本能够更好的保证分类模型的泛化性，现有技术中，通常采用人工进行文本标注为模型训练提供样本。专利技术人对现有的标注方法进行研究发现，人工标注会耗费大量的人力和时间，而且由于个人主观想法的不同，因此标注的样本不理想。
技术实现思路
有鉴于此，本专利技术提供了一种文本的方法及装置，用以解决现有技术中由于人工标注会耗费大量的人力和时间，而且由于个人主观想法的不同，因此标注的样本不理想的问题。具体方案如下：一种文本的标注方法，包括：获取与原始文本对应的词序列；将所述词序列进行转化和映射，得到实体标注向量；统计所述实体标注向量中预设实体信息的数量；若所述数量大于等于预设的阈值时，将所述原始文本标注为异常文本。上述的方法，可选的，还包括：若所述数量小于预设的阈值时，将所述原始文本标注为正常文本。上述的方法，可选的，获取原始文本，将所述原始文本进行实体抽取并形成词序列，包括：确定所述原始文本所属的
；依据所述
，采用分布式爬虫的方法在目标数据集中爬取所述原始文本；对所述原始文本进行实体抽取并形成词序列。上述的方法，可选的，将所述词序列进行转化和映...

【技术保护点】
1.一种文本的标注方法，其特征在于，包括：/n获取与原始文本对应的词序列；/n将所述词序列进行转化和映射，得到实体标注向量；/n统计所述实体标注向量中预设实体信息的数量；/n若所述数量大于等于预设的阈值时，将所述原始文本标注为异常文本。/n

【技术特征摘要】
1.一种文本的标注方法，其特征在于，包括：
获取与原始文本对应的词序列；
将所述词序列进行转化和映射，得到实体标注向量；
统计所述实体标注向量中预设实体信息的数量；
若所述数量大于等于预设的阈值时，将所述原始文本标注为异常文本。

2.根据权利要求1所述的方法，其特征在于，还包括：
若所述数量小于预设的阈值时，将所述原始文本标注为正常文本。

3.根据权利要求1所述的方法，其特征在于，获取与原始文本对应的词序列，包括：
确定所述原始文本所属的技术领域；
依据所述技术领域，采用分布式爬虫的方法在目标数据集中爬取所述原始文本；
对所述原始文本进行实体抽取处理并形成词序列。

4.根据权利要求1所述的方法，其特征在于，将所述词序列进行转化和映射，得到实体标注向量，包括：
将所述词序列通过词嵌层转化为词向量；
将所述词向量通过双向长短期记忆网路的组合层转化为特征图谱；
将所述特征图谱通过两层全连接层映射为特征向量；
将所述特征向量通过条件随机场层进行筛选，得到所述实体标注向量。

5.根据权利要求1所述的方法，其特征在于，统计所述实体标注向量中预设实体信息的数量，包括：
遍历所述实体标注向量，获取所述标注向量中的实体信息；
将所述实体信息与预设实体信息进行比较，当两者相同时，所述数量加一。

6.根据权利要求1所述...

【专利技术属性】
技术研发人员：周欣，
申请(专利权)人：中国信息安全测评中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人