基于统计规律的资讯内容异常检测方法技术

技术编号：15299956 阅读：97 留言：0更新日期：2017-05-12 02:18

一种基于统计规律的资讯内容异常检测方法，包括如下步骤：步骤一、准备语料；步骤二、将语料进行nlp分词；步骤三、分词结果构成多维向量；步骤四、多维向量积攒成多维向量库；步骤五、形成多维向量库扩展；步骤六、需要检测时准备目标资讯；步骤七、将目标资讯进行nlp分词；步骤八、分词结果构成多维向量；步骤九、在多维向量库内检测目标资讯是否正确；步骤十、计算出词项的概率大于阈值；步骤十一、检测通过；步骤十二、计算出词项的概率小于阈值；步骤十三、检测不通过；步骤十四、预警处理。本发明专利技术中提出了一种基于统计规律的资讯内容异常检测方法，相比采用黑白名单，简单的过滤敏感词，本发明专利技术更能高效准确的检测资讯内容的错误。

Anomaly detection method of information content based on statistical rules

An anomaly detection method based on the information content of statistical rules, including the following steps: 1, preparing corpus; step two, the corpus of NLP word segmentation; step three, segmentation results form the Dovi vector; step four, Dovi saved Dovi vector vector library; step five, the formation of Dovi vector library expansion; step six, need when detecting the prepared target information; step seven, the target information of NLP segmentation; step eight, segmentation results form the Dovi vector; step nine, the Dovi vector library target detection information is correct; step ten, to calculate the probability of a lexical entry is greater than the threshold; through step eleven, detection; step twelve, to calculate the probability of a word the term is less than the threshold; step thirteen, step fourteen, not through the detection; early warning. The invention provides an information content anomaly detection method based on statistical rules, which is more efficient and accurate in detecting information content errors than using black and white lists and simple filtering sensitive words.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据检索领域，具体涉及一种基于统计规律的资讯内容异常检测方法。
技术介绍
随着互联网资讯的快速传播，基于人工识别的资讯内容检测方式已经不能满足各大媒体的业务发展要求，人工的检测方式准确度和工作效率难以保证。
技术实现思路
本专利技术的目的是针对现有的技术存在的不足，提出了一种工作效率高的基于统计规律的资讯内容异常检测方法。本专利技术所解决的技术问题采用以下技术方案来实现一种基于统计规律的资讯内容异常检测方法，包括如下步骤：步骤一、准备语料；步骤二、将语料进行nlp分词；步骤三、分词结果构成多维向量；步骤四、多维向量积攒成多维向量库；步骤五、形成多维向量库扩展；步骤六、需要检测时准备目标资讯；步骤七、将目标资讯进行nlp分词；步骤八、分词结果构成多维向量；步骤九、在多维向量库内检测目标资讯是否正确；步骤十、计算出词项的概率大于阈值；步骤十一、检测通过；步骤十二、计算出词项的概率小于阈值；步骤十三、检测不通过；步骤十四、预警处理。本专利技术的有益效果为：提出了一种基于统计规律的资讯内容异常检测方法，通过基于统计规律的资讯内容错误检测方法，可以给媒体机构提供智能的资讯内容错误提醒机制，减少人为的错误发生，保障互联网的媒体事业健康稳定的发展。相比采用黑白名单，简单的过滤敏感词，本专利技术更能高效准确的检测资讯内容的错误。附图说明图1是本专利技术的基于统计规律的资讯内容异常检测方法的流程图。具体实施方式参照附图，一种基于统计规律的资讯内容异常检测方法，包括如下步骤：步骤一、准备语料；步骤二、将语料进行nlp分词；步骤三、分词结果构成多维向量；步骤四、多维...

【技术保护点】
一种基于统计规律的资讯内容异常检测方法，其特征在于：包括如下步骤：步骤一、准备语料；步骤二、将语料进行nlp分词；步骤三、分词结果构成多维向量；步骤四、多维向量积攒成多维向量库；步骤五、形成多维向量库扩展；步骤六、需要检测时准备目标资讯；步骤七、将目标资讯进行nlp分词；步骤八、分词结果构成多维向量；步骤九、在多维向量库内检测目标资讯是否正确；步骤十、计算出词项的概率大于阈值；步骤十一、检测通过；步骤十二、计算出词项的概率小于阈值；步骤十三、检测不通过；步骤十四、预警处理。

【技术特征摘要】
1.一种基于统计规律的资讯内容异常检测方法，其特征在于：包括如下步骤：步骤一、准备语料；步骤二、将语料进行nlp分词；步骤三、分词结果构成多维向量；步骤四、多维向量积攒成多维向量库；步骤五、形成多维向量库扩展；步骤六、需要检测时准备目标资讯...

【专利技术属性】
技术研发人员：张勇，
申请(专利权)人：天津海量信息技术股份有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人