【技术实现步骤摘要】
靶点信息挖掘、检索方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种靶点信息挖掘
、
检索方法和装置
。
技术介绍
[0002]当前,国际上药物研究的竞争,主要集中体现在药物靶点的研究上
。
一般而言,药物作用的新靶点一旦被发现,往往会成为一系列新药发现的突破口
。
新的药物靶点对于药物研究
、
制药企业至关重要
。
[0003]新型药物靶点最有价值的来源之一是相关的文献,因为数以千计的科学家在世界各地的工作揭开新的分子途径
、
基因和蛋白的功能
。
[0004]目前
UniProt
收录的靶点
(
基因和蛋白
)
有2万余个,这些靶点与靶点之间
、
靶点与药物之间
、
靶点与疾病之间存在非常复杂的关系
。PubMed
收录了
3000
余万篇论文,描述了靶点
、
药物和疾病之间的关系,但是非结构化的文本数据不易利用
。
此外,由于科研工作的复杂性
、
论文质量的参差不齐,科研人员需要花费大量的精力去分析甄别论文中涉及到的靶点信息
。
[0005]因此,提供一种系统性
、
结构化的靶点信息挖掘方法,从而能够帮助科研人员针对论文中涉及到的靶点信息进行多维度的分析,是亟需解决的问题
。 />
技术实现思路
[0006]本专利技术提供一种靶点信息挖掘
、
检索方法和装置,用以解决现有技术中非结构化的文本数据不易利用,需要花费大量的精力去分析甄别论文中涉及到的靶点信息的缺陷
。
[0007]本专利技术提供一种靶点信息挖掘方法,包括:
[0008]获取文献数据,对所述文献数据进行分类,得到所述文献数据的类型;
[0009]对所述文献数据进行靶点和疾病实体抽取,以及实体关系识别,得到所述文献数据包含的靶点疾病实体对;
[0010]基于所述靶点疾病实体对所属的文献数据的被引次数,以及所述文献数据的类型,确定所述靶点疾病实体对在各类型文献数据下的可信度
。
[0011]根据本专利技术提供的靶点信息挖掘方法,所述对所述文献数据进行靶点和疾病实体抽取,以及实体关系识别,得到所述文献数据包含的靶点疾病实体对,包括:
[0012]基于预设的靶点字典和疾病字典,和
/
或,基于命名实体识别模型,对所述文献数据的标题和
/
或摘要进行靶点和疾病实体抽取,得到所述文献数据中包含的靶点实体和疾病实体;
[0013]基于命名实体识别模型,对所述文献数据的标题和
/
或摘要进行代词抽取,得到所述文献数据中包含的代词;
[0014]对所述文献数据中包含的靶点实体和疾病实体,以及所述代词进行实体关系识别,得到所述文献数据包含的靶点疾病实体对
。
[0015]根据本专利技术提供的靶点信息挖掘方法,所述对所述文献数据中包含的靶点实体和
疾病实体,以及所述代词进行实体关系识别,得到所述文献数据包含的靶点疾病实体对,包括:
[0016]基于所述代词与所述靶点实体或疾病实体之间的关系,将所述代词替换成所述靶点实体或疾病实体;
[0017]对各靶点实体之间的关系
、
各疾病实体之间的关系以及各靶点实体与各疾病实体之间的关系分别进行识别,得到所述文献数据包含的靶点疾病实体对
。
[0018]根据本专利技术提供的靶点信息挖掘方法,所述基于所述靶点疾病实体对所属文献数据的被引次数,以及所述所属文献数据的类型,确定所述靶点疾病实体对在各类型文献数据下的可信度,包括:
[0019]基于所述靶点疾病实体对所属文献数据的被引次数,以及所述所属文献数据的文献类型,确定所述靶点疾病实体对在各类型文献数据下的证据级别;和
/
或,
[0020]基于类型相同,且包含所述靶点疾病实体对的各文献数据的被引次数,确定所述靶点疾病实体对在所述各文献数据下的证据指数
。
[0021]根据本专利技术提供的靶点信息挖掘方法,所述对所述文献数据进行分类,得到所述文献数据的类型,包括:
[0022]基于第一文本分类模型,对所述原始文献数据进行重要性分类,得到目标文献数据;
[0023]基于第二文本分类模型,对所述目标文献数据进行分类,得到所述目标文献数据的类型
。
[0024]本专利技术还提供一种检索方法,包括:
[0025]接收用户终端发送的目标靶点或目标疾病;
[0026]从靶点疾病实体对信息中,确定出与所述目标靶点相关的疾病信息或确定出与所述目标疾病相关的靶点信息,并对所述疾病信息或所述靶点信息按照可信度进行排序,所述靶点疾病实体对信息是基于所述的靶点信息挖掘方法确定的;
[0027]将所述疾病信息或所述靶点信息返回至所述用户终端
。
[0028]根据本专利技术提供的检索方法,所述对所述疾病信息或所述靶点信息按照可信度进行排序,包括:
[0029]在所述可信度包括证据级别的情况下,基于所述靶点疾病实体对在各类型文献数据下的证据级别,以及所述各类型文献数据下的证据级别的权重,确定所述靶点疾病实体对的证据级别综合评分;
[0030]基于所述靶点疾病实体对的证据级别综合评分,对所述疾病信息或所述靶点信息进行排序
。
[0031]根据本专利技术提供的检索方法,所述确定出与所述目标靶点相关的疾病信息或确定出与所述目标疾病相关的靶点信息,之后还包括:
[0032]基于各靶点取得的重大研发进展时间和
/
或各靶点的竞争度信息,对所述疾病信息或所述靶点信息进行筛选和
/
或排序,所述各靶点的竞争度信息包括药品数量
、
论文数量和专利数量中的至少一项
。
[0033]本专利技术还提供一种靶点信息挖掘装置,包括:
[0034]数据获取单元,用于获取文献数据,对所述文献数据进行分类,得到所述文献数据
的类型;
[0035]实体抽取单元,用于对所述文献数据进行靶点和疾病实体抽取,以及实体关系识别,得到所述文献数据包含的靶点疾病实体对;
[0036]可信度确定单元,用于基于所述靶点疾病实体对所属的文献数据的被引次数,以及所述文献数据的类型,确定所述靶点疾病实体对在各类型文献数据下的可信度
。
[0037]本专利技术还提供一种检索装置,包括:
[0038]接收单元,用于接收用户终端发送的目标靶点或目标疾病;
[0039]信息确定单元,用于从靶点疾病实体对信息中,确定出与所述目标靶点相关的疾病信息或确定出与所述目标疾病相关的靶点信息,并对所述疾病信息或所述靶点信息按照可信度进本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种靶点信息挖掘方法,其特征在于,包括:获取文献数据,对所述文献数据进行分类,得到所述文献数据的类型;对所述文献数据进行靶点和疾病实体抽取,以及实体关系识别,得到所述文献数据包含的靶点疾病实体对;基于所述靶点疾病实体对所属的文献数据的被引次数,以及所述文献数据的类型,确定所述靶点疾病实体对在各类型文献数据下的可信度
。2.
根据权利要求1所述的靶点信息挖掘方法,其特征在于,所述对所述文献数据进行靶点和疾病实体抽取,以及实体关系识别,得到所述文献数据包含的靶点疾病实体对,包括:基于预设的靶点字典和疾病字典,和
/
或,基于命名实体识别模型,对所述文献数据的标题和
/
或摘要进行靶点和疾病实体抽取,得到所述文献数据中包含的靶点实体和疾病实体;基于命名实体识别模型,对所述文献数据的标题和
/
或摘要进行代词抽取,得到所述文献数据中包含的代词;对所述文献数据中包含的靶点实体和疾病实体,以及所述代词进行实体关系识别,得到所述文献数据包含的靶点疾病实体对
。3.
根据权利要求2所述的靶点信息挖掘方法,其特征在于,所述对所述文献数据中包含的靶点实体和疾病实体,以及所述代词进行实体关系识别,得到所述文献数据包含的靶点疾病实体对,包括:基于所述代词与所述靶点实体或疾病实体之间的关系,将所述代词替换成所述靶点实体或疾病实体;对各靶点实体之间的关系
、
各疾病实体之间的关系以及各靶点实体与各疾病实体之间的关系分别进行识别,得到所述文献数据包含的靶点疾病实体对
。4.
根据权利要求1所述的靶点信息挖掘方法,其特征在于,所述基于所述靶点疾病实体对所属文献数据的被引次数,以及所述所属文献数据的类型,确定所述靶点疾病实体对在各类型文献数据下的可信度,包括:基于所述靶点疾病实体对所属文献数据的被引次数,以及所述所属文献数据的文献类型,确定所述靶点疾病实体对在各类型文献数据下的证据级别;和
/
或,基于类型相同,且包含同一靶点疾病实体对的各文献数据的被引次数,确定所述同一靶点疾病实体对在所述类型的各文献数据下的证据指数
。5.
根据权利要求1至4中任一项所述的靶点信息挖掘方法,其特征在于,所述对所述文献数据进行分类,得到所述文献数据的类型,包括:基于第一文本分类模型,对所述文献数据进行重要性分类,得到目标文...
【专利技术属性】
技术研发人员:周立运,请求不公布姓名,
申请(专利权)人:魔方医药科技苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。