System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理领域,尤其涉及一种文献实体提取方法、模型训练方法、设备及存储介质。
技术介绍
1、学术文献作为一种格式标准的高质量文本,包含同行评审的知识,汇积了科研人员的创新成果,是具有高研究价值的专业数据资源。
2、以文献形式呈现的科学研究可以长期被世界各地的其他学者重复引用和扩展,且随着理论与方法的对比研究需要,许多案例或方法研究能够持续多年,因此具有典型的长尾效应。但在数字时代,海量学术资源在满足科研人员信息需求的同时,也带来了严重的信息过载。通过人工阅读掌握学术文献中的相关知识是耗时费力的,且难以全面掌握该领域的研究现状和趋势。
3、已有研究中,基于学术文献的研究方法抽取粗糙、不够全面,针对上述缺陷,亟需一种文献实体提取方法、模型训练方法、设备及存储介质,能够快速、准确获取文献中的研究方法实体。
技术实现思路
1、本申请提供一种文献实体提取方法、模型训练方法、设备及存储介质,用以解决现有技术中基于学术文献的研究方法抽取粗糙、不够全面的问题。
2、第一方面,本申请提供一种文献实体提取模型的训练方法,包括:
3、根据句子分类模型对论文文献中的第一句子进行分类,获取句子类型,所述句子类型包括使用方法句、引用方法句和非方法句;
4、将预标注的所述使用方法句作为第一训练集,所述预标注的标签用于指示所述使用方法句中的词汇为文献实体或者非文献实体;
5、用于根据所述第一训练集对第一预设模型进行训练获取文献实体
6、在一种可能的设计中,所述预标注的标注规则包括:
7、采用bio序列标注方法根据预设标注规则对所述句子进行标注,将标注后的句子作为所述训练集中的样本;
8、其中,所述预设规则包括:用“o”标注表示非文献实体的词汇,用“b-x”标注x类型短语中开头的词汇,用“i-x”标注x类型短语中非开头的词汇;其中,所述x类型短语为文献实体短语,所述x类型包括方法、软件工具和数据的类型。
9、在一种可能的设计中,所述第一预设模型为bilstm-crf模型,所述bilstm-crf模型包括依次连接的嵌入层,bilstm层和crf层,其中所述嵌入层用于将输入的离散词语转化为向量表示;bilstm层包括一个正向的lstm层和一个反向的stm层,用于获取上下文特征,得到更全面的语义信息;crf层通过添加约束,输出全局最优的标签序列。
10、在一种可能的设计中,在所述根据第二预设模型对论文文献中的第一句子进行分类之前,所述方法还包括:
11、采集多个论文文献,对所述论文文献进行预处理获取多个第一句子;
12、所述对所述论文文献进行预处理获取多个第一句子,包括:
13、对论文文献依次进行文本提取、文本清洗和句子拆分获取多个所述第一句子。
14、在一种可能的设计中,所述句子分类模型是根据第二训练集对第二预设模型进行训练获取的,所述第二训练集包括多个句子样本,所述句子样本对应的标签用于指示所述句子样本为使用方法句、引用方法句或者非方法句。
15、第二方面,本申请提供一种文献实体提取方法,包括:
16、根据第二预设模型对待提取文献进行处理获取句子类型为使用方法句的第二句子;
17、根据文献实体提取模型提取所述使用方法句中的文献实体;所述文献实体提取模型是根据上述一种文献实体提取模型的训练方法获取的模型。
18、在一种可能的设计中,所述根据第二预设模型对待提取文献进行处理获取使用方法句,包括:
19、对待提取文献进行预处理获取多个第二句子;
20、根据句子分类模型对所述第二句子进行识别获取句子类型,所述句子类型包括使用方法句、引用方法句和非方法句;根据所述句子类型提取句子类型为使用方法句的第二句子。
21、第三方面,本申请提供一种文献实体提取模型的训练设备,包括:
22、分类模块、用于根据句子分类模型对论文文献中的第一句子进行分类,获取句子类型,所述句子类型包括使用方法句、引用方法句和非方法句;
23、筛选模块、用于将预标注的所述使用方法句作为第一训练集,所述预标注的标签用于指示所述使用方法句中的词汇为文献实体或者非文献实体;
24、训练模型、用于根据所述第一训练集对第一预设模型进行训练获取文献实体提取模型,所述文献实体提取模型用于提取句子中的文献实体。
25、第四方面,本申请提供一种文献实体提取设备,包括:
26、使用方法句提取模块、根据第二预设模型对待提取文献进行处理获取句子类型为使用方法句的第二句子;
27、实体提取模块、根据文献实体提取模型提取所述使用方法句中的文献实体;所述文献实体提取模型是根据上述一种文献实体提取模型的训练方法或者上述一种文献实体提取模型的训练设备获取的模型。
28、第五方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
29、所述存储器存储计算机执行指令;
30、所述处理器执行所述存储器存储的计算机执行指令,以实现上述一种文献实体提取模型的训练方法或者一种文献实体提取方法。
31、第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述一种文献实体提取模型的训练方法或者一种文献实体提取方法。
32、本申请提供的一种文献实体提取方法、模型训练方法、设备及存储介质,包括:根据句子分类模型对论文文献中的第一句子进行分类,获取句子类型,所述句子类型包括使用方法句、引用方法句和非方法句;将预标注的使用方法句作为第一训练集,所述预标注的标签用于指示使用方法句中的词汇为文献实体或者非文献实体;根据所述第一训练集对第一预设模型进行训练获取文献实体提取模型,所述文献实体提取模型用于提取句子中的文献实体。实现了如下技术效果:
33、通过句子分类模型实现对包括文献实体的句子进行快速采集,提高分类精确度,缩短训练集采集周期;
34、本申请实施例提供的训练方法获取的文献实体提取模型,能够实现句子到实体的抽取,提高实体的抽取精度。
35、能够快速、准确获取文献的研究方法、工具和数据等内容,确定研究方法的细节,实现对文献全文的充分挖掘,有利于快速、准确构建知识图谱。
本文档来自技高网...【技术保护点】
1.一种文献实体提取模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预标注的标注规则包括:
3.根据权利要求1所述的方法,其特征在于,所述第一预设模型为BiLSTM-CRF模型,所述BiLSTM-CRF模型包括依次连接的嵌入层,BiLSTM层和CRF层,其中所述嵌入层用于将输入的离散词语转化为向量表示;BiLSTM层包括一个正向的LSTM层和一个反向的STM层,用于获取上下文特征,得到更全面的语义信息;CRF层通过添加约束,输出全局最优的标签序列。
4.根据权利要求1所述的方法,其特征在于,在所述根据第二预设模型对论文文献中的第一句子进行分类之前,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述句子分类模型是根据第二训练集对第二预设模型进行训练获取的,所述第二训练集包括多个句子样本,所述句子样本对应的标签用于指示所述句子样本为使用方法句、引用方法句或者非方法句。
6.一种文献实体提取方法,其特征在于,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据第
8.一种文献实体提取设备,其特征在于,包括:
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5或者6-7任一项所述的方法。
...【技术特征摘要】
1.一种文献实体提取模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预标注的标注规则包括:
3.根据权利要求1所述的方法,其特征在于,所述第一预设模型为bilstm-crf模型,所述bilstm-crf模型包括依次连接的嵌入层,bilstm层和crf层,其中所述嵌入层用于将输入的离散词语转化为向量表示;bilstm层包括一个正向的lstm层和一个反向的stm层,用于获取上下文特征,得到更全面的语义信息;crf层通过添加约束,输出全局最优的标签序列。
4.根据权利要求1所述的方法,其特征在于,在所述根据第二预设模型对论文文献中的第一句子进行分类之前,所述方法还包括:
5.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:张敏,王卷乐,
申请(专利权)人:中国科学院地理科学与资源研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。