【技术实现步骤摘要】
一种基于机器学习的催化剂抽取方法
本专利技术涉及化学研究
,尤其涉及一种基于机器学习的催化剂抽取方法。
技术介绍
随着统计分析在化学研究中越来越多的应用,化学科研数据的采集整理愈加重要,其中从细分领域来讲,涉及到化学反应以及众多应用场景中,有关催化剂实体识别在整个化学领域的文本发掘中有着不可或缺的重要角色。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种基于机器学习的催化剂抽取方法。本专利技术提出的一种基于机器学习的催化剂抽取方法,包括以下步骤:S1、获取文本,并将文本中的词语进行分解并标准化处理;S2、通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;S3、通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。优选的,步骤S1具体为:获取文本,以句子为单位进行初步分词;然后根据预设的特殊类型模板将初步分词词语分类为特殊词语和普通词语,并对普通词语进一步分词作为二次分解词语,然后对特殊词语和二次分解词语进行标准化处理。优选的,步骤S2中,对分解后的词语标记相应的POS标记以及CHUNK标记的方法为:首先通过预先加载的预测模型分别对词语进行POS标记以及CHUNK标记,然后综合两种标记结构对词语进行最终标记。优选的,预测模型为CRF机器学习模型。优选的,步骤S3具体为:特征序列输入抽取模型后,通过抽取模型根据标记抽取词语中与 ...
【技术保护点】
1.一种基于机器学习的催化剂抽取方法,其特征在于,包括以下步骤:/nS1、获取文本,并将文本中的词语进行分解并标准化处理;/nS2、通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;/nS3、通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。/n
【技术特征摘要】
1.一种基于机器学习的催化剂抽取方法,其特征在于,包括以下步骤:
S1、获取文本,并将文本中的词语进行分解并标准化处理;
S2、通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;
S3、通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。
2.如权利要求1所述的基于机器学习的催化剂抽取方法,其特征在于,步骤S1具体为:获取文本,以句子为单位进行初步分词;然后根据预设的特殊类型模板将初步分词词语分类为特殊词语和普通词语,并对普通词语进一步分词作为二次分解词语,然后对特殊词语和二次分解词语进行标准化处理。
3.如权...
【专利技术属性】
技术研发人员:李鑫,沈伟,鲍琦,
申请(专利权)人:苏州机数芯微科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。