当前位置: 首页 > 专利查询>许昌学院专利>正文

一种基于大数据及人工智能的数据处理方法及系统技术方案

技术编号:29790256 阅读:20 留言:0更新日期:2021-08-24 18:09
本发明专利技术涉及数据处理技术领域,具体公开了一种基于大数据及人工智能的数据处理方法及系统,所述系统包括身份确认单元、词条获取单元、词条筛选单元、内容识别单元和词条更新单元;所述词条筛选单元,用于获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表;所述内容识别单元用于基于所述有效词条表访问对应网址,并对相应的网址内容进行内容识别。本发明专利技术是在搜索引擎给出反馈的基础上进行工作的,通过对所述待检词条进行文本预筛选,筛掉一些用户不想看到的内容,通过对相应的网址内容进行内容识别,进一步过滤掉不合适的内容,最终将最有用的价值呈现在用户面前,过滤效果极佳。

【技术实现步骤摘要】
一种基于大数据及人工智能的数据处理方法及系统
本专利技术涉及数据处理
,具体是一种基于大数据及人工智能的数据处理方法及系统。
技术介绍
随着科技的发展以及社会的进步,人们必需要不断的学习才能适应社会,更好的生活;在多年以前,学习的方式主要是通过书籍,而在现在的时代,学习的方式大都离不开互联网,尤其是一些即时性的知识,大家往往会通过一些搜索引擎进行搜索,在互联网刚普及的年代,搜索引擎的质量非常高,只要键入关键字,很容易就能获取想要得到的信息,但是,随着流量时代的到达,搜索内容逐渐的变成了以广告为主体的内容,这使得大家非常反感。当然,很多搜索引擎的开发商也注意到了这一情况,它们往往会想办法避开无效信息,但由于广告的收益实在太大,像一些垃圾域名总能通过一些违法的方式去占据头条内容,现有的解决办法是,对不同信息进行分类,比如,在广告词条上插入广告标签,在我们的日常使用中可以了解,这些广告标签大都是很不显眼的,尽管有些搜索引擎能够给出显眼的标签同,但实际上,它还是占据着那些属于有用信息的位置,让人非常反感。因此,设计一种对这些搜索内容进行处理的系统,提高搜索效率,是很有意义的。
技术实现思路
本专利技术的目的在于提供一种基于大数据及人工智能的数据处理方法及系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于大数据及人工智能的数据处理方法,所述方法包括:接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道;将所述查询内容向搜索引擎发送,接收搜索引擎返回的词条信息,并基于搜索引擎默认顺序生成待检词条库;获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表;基于所述有效词条表访问对应网址,并对相应的网址内容进行内容识别;基于内容识别结果更新有效词条表,并向用户显示。作为本专利技术技术方案进一步的限定:所述接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道的步骤包括:获取用户的账号信息,并判断账号信息正误;若账号信息正确,则开放内容输入端口;若账号信息错误,则确认阈值,并将错误次数加一,并判断错误次数与所述阈值的大小;若错误次数小于所述阈值,则再次获取用户的账号信息,若错误次数大于所述阈值,则获取用户人脸图像,并对所述人脸图像进行人脸识别。作为本专利技术技术方案进一步的限定:若错误次数大于所述阈值,则获取用户人脸图像,并对所述人脸图像进行人脸识别的步骤包括:检测人脸,捕捉人脸图像;切割所述人脸图像中的面部区域;根据所述人脸图像中的局部纹理和特征建立人脸模型;根据所述人脸模型读取人脸信息数据库中的人脸信息并比对。作为本专利技术技术方案进一步的限定:所述获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表的步骤包括:确认敏感字符,生成敏感字符库;确认预计词条数,建立与待检词条库的连接通道,并基于所述预计词条数读取待检词条;连接所述待检词条,并将连接后的待检词条转换为文本信息,生成文本文件;顺序读取所述敏感字符,基于所述敏感字符遍历所述文本文件,获取敏感位置;基于所述敏感位置定位待检词条库,删除对应待检词条,生成有效词条表。作为本专利技术技术方案进一步的限定:所述获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表的步骤还包括:读取待检词条库,随机读取至少两个待检词条;对所述至少两个待检词条进行文本预筛选,并基于两个所述待检词条进行内容识别,计算子时长;读取预计词条数,基于所述子时长与所述预计词条数生成预估时长,并进行显示。作为本专利技术技术方案进一步的限定:所述基于所述有效词条表访问对应网址,并对相应的网址内容进行内容识别的步骤包括:顺序读取有效词条表中的有效词条,获取有效词条的网址,并查询对应网址的访问数;基于所述访问数对有效词条表中的有效词条进行降序排列;依次访问有效词条所在网址,获取相应网址内容;基于文件后缀名将所述网址内容拆分为图像文件和文本文件,并对所述图像文件和文本文件进行内容识别。作为本专利技术技术方案进一步的限定:所述基于内容识别结果更新有效词条表,并向用户显示的步骤包括:获取有效词条的内容识别结果,生成违规等级;确认第一违规阈值和第二违规阈值,基于两个违规阈值判断违规等级大小,其中,所述第二违规阈值大于所述第一违规阈值;若违规等级大于第二违规阈值,则在有效词条表中删去对应有效词条;若违规等级大于第一违规阈值并小于第二违规阈值,则在有效词条表中加密对应有效词条,并基于解锁指令进行解密。一种基于大数据及人工智能的数据处理系统,其特征在于,所述系统包括:身份确认单元,用于接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道;词条获取单元,用于将所述查询内容向搜索引擎发送,接收搜索引擎返回的词条信息,并基于搜索引擎默认顺序生成待检词条库;词条筛选单元,用于获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表;内容识别单元,用于基于所述有效词条表访问对应网址,并对相应的网址内容进行内容识别;词条更新单元,用于基于内容识别结果更新有效词条表,并向用户显示。作为本专利技术技术方案进一步的限定:所述词条筛选单元包括:字符确认模块,用于确认敏感字符,生成敏感字符库;读取模块,用于确认预计词条数,建立与待检词条库的连接通道,并基于所述预计词条数读取待检词条;连接模块,用于连接所述待检词条,并将连接后的待检词条转换为文本信息,生成文本文件;位置获取模块,用于顺序读取所述敏感字符,基于所述敏感字符遍历所述文本文件,获取敏感位置;删除模块,用于基于所述敏感位置定位待检词条库,删除对应待检词条,生成有效词条表。作为本专利技术技术方案进一步的限定:所述内容识别单元包括:次数查询模块,用于顺序读取有效词条表中的有效词条,获取有效词条的网址,并查询对应网址的访问数;排列模块,用于基于所述访问数对有效词条表中的有效词条进行降序排列;内容获取模块,用于依次访问有效词条所在网址,获取相应网址内容;执行模块,用于基于文件后缀名将所述网址内容拆分为图像文件和文本文件,并对所述图像文件和文本文件进行内容识别。与现有技术相比,本专利技术的有益效果是:本专利技术接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道;将所述查询内容向搜索引擎发送,接收搜索引擎返回的词条信息,并基于搜索引擎默认顺序生成待检词条库;获本文档来自技高网...

【技术保护点】
1.一种基于大数据及人工智能的数据处理方法,其特征在于,所述方法包括:/n接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道;/n将所述查询内容向搜索引擎发送,接收搜索引擎返回的词条信息,并基于搜索引擎默认顺序生成待检词条库;/n获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表;/n基于所述有效词条表访问对应网址,并对相应的网址内容进行内容识别;/n基于内容识别结果更新有效词条表,并向用户显示。/n

【技术特征摘要】
1.一种基于大数据及人工智能的数据处理方法,其特征在于,所述方法包括:
接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道;
将所述查询内容向搜索引擎发送,接收搜索引擎返回的词条信息,并基于搜索引擎默认顺序生成待检词条库;
获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表;
基于所述有效词条表访问对应网址,并对相应的网址内容进行内容识别;
基于内容识别结果更新有效词条表,并向用户显示。


2.根据权利要求1所述的基于大数据及人工智能的数据处理方法,其特征在于,所述接收用户查询请求,验证用户身份,基于验证结果开放内容输入端口,获取所述查询内容,并建立与搜索引擎的连接通道的步骤包括:
获取用户的账号信息,并判断账号信息正误;
若账号信息正确,则开放内容输入端口;
若账号信息错误,则确认阈值,并将错误次数加一,并判断错误次数与所述阈值的大小;若错误次数小于所述阈值,则再次获取用户的账号信息,若错误次数大于所述阈值,则获取用户人脸图像,并对所述人脸图像进行人脸识别。


3.根据权利要求1所述的基于大数据及人工智能的数据处理方法,其特征在于,若错误次数大于所述阈值,则获取用户人脸图像,并对所述人脸图像进行人脸识别的步骤包括:
检测人脸,捕捉人脸图像;
切割所述人脸图像中的面部区域;
根据所述人脸图像中的局部纹理和特征建立人脸模型;
根据所述人脸模型读取人脸信息数据库中的人脸信息并比对。


4.根据权利要求1所述的基于大数据及人工智能的数据处理方法及系统,其特征在于,所述获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表的步骤包括:
确认敏感字符,生成敏感字符库;
确认预计词条数,建立与待检词条库的连接通道,并基于所述预计词条数读取待检词条;
连接所述待检词条,并将连接后的待检词条转换为文本信息,生成文本文件;
顺序读取所述敏感字符,基于所述敏感字符遍历所述文本文件,获取敏感位置;
基于所述敏感位置定位待检词条库,删除对应待检词条,生成有效词条表。


5.根据权利要求1所述的基于大数据及人工智能的数据处理方法及系统,其特征在于,所述获取预计词条数,对所述待检词条进行文本预筛选,基于预计词条数和筛选结果生成有效词条表的步骤还包括:
读取待检词条库,随机读取至少两个待检词条;
对所述至少两个待检词条进行文本预筛选,并基于两个所述待检词条进行内容识别,计算子时长;
读取预计词条数,基于所述子时长与所述预计词条数生成预估时长,并进行显示。


6.根据权利要求1所述的基于大数据及人工智能的数据处理方法及系统,其特征在于,所述基于所述有效词条表访问对应...

【专利技术属性】
技术研发人员:黄海马洪伟吴霖瑞张居正谢昊岩
申请(专利权)人:许昌学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1