目标信息识别方法、装置、设备、可读存储介质及产品制造方法及图纸

技术编号:33352528 阅读:26 留言:0更新日期:2022-05-08 10:01
本公开提供了目标信息识别方法、装置、设备、可读存储介质及产品,涉及人工智能中的NLP。具体实现方案为:获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集合,其中,所述目标信息词表中包括符合预设规定的标准目标信息词汇,以及不符合预设规定的非标准目标信息词汇;将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信息。从而能够快速地实现对待识别隐私政策文件中符合预设规定以及不符合预设规定的目标信息的识别操作,提高了目标信息识别的效率以及准确度。提高了目标信息识别的效率以及准确度。提高了目标信息识别的效率以及准确度。

【技术实现步骤摘要】
目标信息识别方法、装置、设备、可读存储介质及产品


[0001]本公开涉及人工智能中的NLP,尤其涉及一种目标信息识别方法、装 置、设备、可读存储介质及产品。

技术介绍

[0002]隐私政策是APP必备的重要文件,隐私政策往往很冗长繁琐,按照 法律法规的要求应该包含多方面的内容,如:如何收集和使用个人信息, 个人信息安全保障,个人信息出境情况说明等。隐私政策最核心的内容是 如何收集和使用个人信息(包括第三方SDK收集和使用个人信息),但 是隐私政策并没有标准格式,且较为冗长,因此,个人信息的识别较为困 难。
[0003]现有的隐私政策文件个人信息识别方法一般都是基于规定的标准个 人信息对模型进行训练,通过训练后的模型进行个人信息的识别操作。
[0004]但是,由于APP开发者书写隐私政策往往比较随意,尤其是个人信 息用词存在多种表达方式,采用上述方法识别的个人信息的准确性不高。

技术实现思路

[0005]本公开提供了一种用于实现对隐私政策文件中个人信息精准识别的 目标信息识别方法、装置、设备、可读存储介质及产品。
[0006]根据本公开的第一方面,提供了一种目标信息识别方法,包括:
[0007]获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;
[0008]根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词 表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集 合,其中,所述目标信息词表中包括符合预设规定的标准目标信息词汇, 以及不符合预设规定的非标准目标信息词汇;
[0009]将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信 息。
[0010]根据本公开的第二方面,提供了一种目标信息识别装置,包括:
[0011]获取模块,用于获取识别请求,其中,所述识别请求中包括待识别隐 私政策文件;
[0012]处理模块,用于根据所述识别请求,将所述待识别隐私政策文件与预 设的目标信息词表进行比对操作,确定待识别隐私政策文件与目标信息词 表的交集词汇集合,其中,所述目标信息词表中包括符合预设规定的标准 目标信息词汇,以及不符合预设规定的非标准目标信息词汇;
[0013]确定模块,用于将交集词汇集合中的词汇确定为待识别隐私政策文件 对应的目标信息。
[0014]根据本公开的第三方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被 所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面 所述的方法。
[0018]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算 机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方 面所述的方法。
[0019]根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程 序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子 设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所 述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述 的方法。
[0020]根据本公开的目标信息识别方法、装置、设备、可读存储介质及产品 解决了现有的隐私政策文件个人信息识别方法识别的个人信息的准确性 不高的技术问题。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
[0022]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0023]图1为本公开基于的系统架构示意图;
[0024]图2为本公开实施例一提供的目标信息识别方法的流程示意图;
[0025]图3为本公开实施例提供的界面交互示意图;
[0026]图4为本公开实施例二提供的目标信息识别方法的流程示意图;
[0027]图5为本公开实施例三提供的目标信息识别方法的流程示意图;
[0028]图6为本公开实施例四提供的目标信息识别装置的结构示意图;
[0029]图7为本公开实施例五提供的电子设备的结构示意图。
具体实施方式
[0030]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述。
[0031]针对上述提及的现有的隐私政策文件个人信息识别方法识别的个人 信息的准确性不高的技术问题,本公开提供了一种目标信息识别方法、装 置、设备、可读存储介质及产品。
[0032]本公开提供一种目标信息识别方法、装置、设备、可读存储介质及产 品,应用于人工智能中的NLP,以达到提高隐私政策文件中个人信息识别 的精准度的技术效果。其可运用在对各种隐私政策文件进行个人信息识别 的场景中。
[0033]为了实现对隐私政策文件中个人信息的识别,现有技术中一般都是基 于国家标准里的标准个人信息列表中的个人信息进行模型的训练,使用训 练后的模型进行个人信息的识别。但是,描述APP个人信息往往有很多种 表达方式,举例来说,“设备MAC地址”是一种个人信息的标准化名称, 但是在隐私政策中,该个人信息可能的表述方式多达十几种,
非专业用户 很可能无法完全正确辨别这些表述。常见的“设备MAC地址”同义表述 有:“MAC Address”、“MAC硬件地址”、“网络设备硬件地址”、“网 卡硬件地址、“网络设备地址”、“MAC媒体访问控制地址”、“网卡 地址”、“网卡唯一标识”、“WIFI地址”、“WIFI硬件地址”等等。 因此,采用上述识别方式往往识别准确度不高。此外,由于隐私政策文本 没有固定的格式和标准,为了规避各种法律风险,通篇以长句为主,晦涩 难懂,隐私政策的篇幅也非常长,结构完备的隐私政策基本都在1万个中 文字以上,通过人工进行个人信息识别也较为耗费人力资源,且效率较低。
[0034]在解决上述技术问题的过程中,专利技术人通过研究发现,为了实现对隐 私政策文件中个人信息的精准识别,可以预先通过自然语言处理(NLP) 方法构建包括符合预设规定的标准目标信息词汇,以及不符合预设规定的 非标准目标信息词汇的目标信息词表。将待识别的隐私政策文件与该目标 信息词表进行比对,以实现对待识别隐私政策文件中个人信息的准确识别。
[0035]图1为本公开基于的系统架构示意图,如图1所示,本公开基于的系 统架构至少包括:终端设备11以及服务器12,其中,服务器12中设置有 目标信息识别装置,该目标信息识别装置可采用C/C++、Java、Shell或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标信息识别方法,包括:获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集合,其中,所述目标信息词表中包括符合预设规定的标准目标信息词汇,以及不符合预设规定的非标准目标信息词汇;将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信息。2.根据权利要求1所述的方法,所述根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作之前,还包括:获取待处理隐私政策文件集合,其中,所述待处理隐私政策文件集合中包括多个待处理隐私政策文件;对各所述待处理隐私政策文件进行数据处理,获得与各待处理隐私政策文件对应的多个名词性短语;根据各名词性短语在多个待处理隐私政策文件中使用频率将所述名词性短语按照所述使用频率由大到小的顺序进行排序,获得排序后的名词性短语;根据所述排序后的名词性短语生成所述目标信息词表。3.根据权利要求2所述的方法,其中,所述对各所述待处理隐私政策文件进行数据处理,获得与各待处理隐私政策文件对应的多个名词性短语,包括:针对各待处理隐私政策文件,根据所述待处理隐私政策文件中的标点符号对待处理隐私政策文件进行分句操作,获得与所述待处理隐私政策文件对应的多个待处理语句;针对各待处理语句,将所述待处理语句输入至预设的语言分析工具,获得所述待处理语句对应的多个分词、任意两个分词之间的依存关系以及各分词对应的词性信息,其中,所述语言分析工具为自然语言处理工具;根据所述待处理语句对应的多个分词、任意两个分词之间的依存关系以及各分词对应的词性信息,确定所述待处理语句对应的至少一个名词性短语。4.根据权利要求3所述的方法,其中,所述根据所述待处理语句对应的多个分词、任意两个分词之间的依存关系以及各分词对应的词性信息,确定所述待处理语句对应的至少一个名词性短语,包括:根据所述待处理语句对应的多个分词及各分词的词性信息,确定所述待处理语句对应的名词分词;针对各名词分词,根据所述任意两个分词之间的依存关系确定所述名词分词对应的修饰性分词;将所述名词分词以及所述修饰性分词确定为所述名词性短语。5.根据权利要求2所述的方法,其中,所述根据所述排序后的名词性短语生成所述目标信息词表,包括:按照所述排序后的名词性短语的顺序,依次将所述名词性短语与标准目标信息词表中的各词汇进行比对操作,获得比对结果;根据所述比对结果对所述排序后的名词性短语进行标注操作;剔除所述排序后的名词性短语中未被标注的名词性短语,获得所述目标信息词表。6.根据权利要求5所述的方法,其中,所述根据所述比对结果对所述排序后的名词性短
语进行标注操作,包括:若所述比对结果为所述标准目标信息词表中包括所述名词性短语,则将所述名词性短语标注为标准目标信息词汇;若所述比对结果为所述标准目标信息词表中不包括所述名词性短语,则计算所述名词性短语与所述标准目标信息词表中词汇的相似度;若所述名词性短语与所述标准目标信息词表中相似度最高的标准目标信息词汇的相似度超过预设的相似度阈值,则自动将所述名词性短语标注为非标准目标信息词汇。7.根据权利要求6所述的方法,所述将所述名词性短语标注为非标准目标信息词汇之后,还包括:建立所述非标准目标信息词汇与所述相似度最高的标准目标信息词汇之间的映射关系。8.根据权利要求7所述的方法,其中,所述若所述名词性短语与所述标准目标信息词表中相似度最高的词汇的相似度超过预设的相似度阈值,则自动将所述名词性短语标注为非标准目标信息词汇之后,还包括:若所述比对结果为所述标准目标信息词表中不包括所述名词性短语,所述名词性短语与所述标准目标信息词表中相似度最高的词汇的相似度不超过预设的相似度阈值,且所述名词性短语在排序中的位置超过预设的位置阈值,则将所述名词性短语发送至技术人员的终端设备,使得所述技术人员对所述名词性短语进行手动标注操作;接收技术人员的终端设备发送的手动标注的非标准目标信息词汇;将自动标注的非标准目标信息词汇以及手动标注的非标准目标信息词汇确定为非标准目标信息词汇。9.根据权利要求7所述的方法,其中,所述根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集合之后,还包括:若检测到所述待识别隐私政策文件中存在非标准目标信息词汇,则根据所述非标准目标信息词汇与标准目标信息词汇之间的映射关系,将所述待识别隐私政策文件中的非标准目标信息词汇替换为所述标准目标信息词汇。10.根据权利要求2

8任一项所述的方法,其中,所述获取待处理隐私政策文件集合,包括:通过网络爬虫从互联网上获取待处理隐私政策文件集合。11.一种目标信息识别装置,包括:获取模块,用于获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;处理模块,用于根据所述识别请求...

【专利技术属性】
技术研发人员:侯柳平
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1