使用针对性问题回答来提取科学测量背景的系统和方法技术方案

技术编号:32713251 阅读:65 留言:0更新日期:2022-03-20 08:11
一种用于执行对文件结果集的搜索的方法包括:在计算装置处接收电子文件;识别所述文件中的数值;从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本;创建所述提取文本的向量表示;产生与所述提取文本相关联的系列问题;基于所述提取文本的所述向量表示产生对所述系列问题的回答;基于对所述多个问题的所述回答,确定与所述数值相关联的背景;和将所述数值和与所述数值相关联的所述背景存储于数据库中。景存储于数据库中。景存储于数据库中。

【技术实现步骤摘要】
【国外来华专利技术】使用针对性问题回答来提取科学测量背景的系统和方法
[0001]相关申请案的交叉引用
[0002]本申请案要求2019年7月5日提交的美国临时申请案第62/870,951号的优先权,所述美国临时申请案的全部内容由此以引用的方式并入。
专利

[0003]本说明书大体涉及信息检索,且更具体地,涉及使用针对性问题回答来提取科学测量背景的系统和方法。

技术介绍

[0004]常在例如期刊文章的科学文献中报告测量值和数据点。这些测量可能与正在测量的多种实体或性质有关。某些数据库可以收集或汇总科学文献中的文章。然而,这些数据库通常是手工编策的且通常不包括与测量值相关联的用以快速理解其含义或值的背景信息。用户可能希望能够存取在科学文献中找到的与某一主题有关的测量值的数据库。因此,需要一种提取科学测量背景的方法。

技术实现思路

[0005]在一个实施例中,一种方法包括:接收电子文件;识别所述文件中的数值;从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本;创建所述提取文本的向量表示;产生与所述提取文本相关联的系列问题;基于所述提取文本的所述向量表示产生对所述系列问题的回答;基于对所述多个问题的所述回答,确定与所述数值相关联的背景;和将所述数值和与所述数值相关联的所述背景存储于数据库中。
[0006]在一个实施例中,一种系统包括:处理装置;和非暂时性处理器可读存储介质,所述非暂时性处理器可读存储介质包括存储在其上的一个或多个编程指令。所述指令在被执行时致使所述处理装置:接收电子文件;识别所述文件中的数值;从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本;创建所述提取文本的向量表示;产生与所述提取文本相关联的系列问题;基于所述提取文本的所述向量表示产生对所述系列问题的回答;基于对所述多个问题的所述回答确定与所述数值相关联的背景;和存储所述数值和与所述数值相关联的所述背景。
[0007]本专利技术技术的这些和其它特征以及特性,以及相关结构元件的操作方法和功能,以及部件的组合和制造的经济性,在参考附图来考虑以下描述和所附权利要求书后将变得更加明显,所有附图组成本说明书的部分,在附图中,相似参考标号指定各个图中的对应部件。然而,应明确理解,图式仅出于说明和描述目的且不意欲作为限制本专利技术的定义。如说明书中和权利要求书中所使用,除非背景清楚地规定,否则单数形式“一”和“所述”包括复数指示物。
[0008]附图简单说明
[0009]图式中阐述的实施例本质上是说明性和示范性的,且不意欲限制权利要求书所定
义的主题。当结合以下图式阅读时,可理解说明性实施例的以下详细描述,在图式中用类似参考标号指示类似且在图式中:
[0010]图1示意地描绘根据本文中展示和描述的一个或多个实施例的供系统用于使用针对性问题回答来提取科学测量背景的说明性计算网络;
[0011]图2示意地描绘根据本文中展示和描述的一个或多个实施例的来自图1的服务器计算装置,其另外说明可在使用针对性问题回答来提取科学测量背景时使用的硬件和软件;
[0012]图3描绘根据本文中展示和描述的一个或多个实施例的使用针对性问题回答来提取科学测量背景的说明性方法的流程图;
[0013]图4描绘根据本文中展示和描述的一个或多个实施例的测量的说明性的示范性背景;和
[0014]图5描绘根据本文中展示和描述的一个或多个实施例的多轮问题回答的实例。
具体实施方式
[0015]一般参考各图,本文中描述的实施例针对于使用针对性问题回答来提取科学测量背景的系统和方法。例如期刊文章、教科书等科学文献常常包括与文献相关联的各种实体的多种测量值。举例来说,期刊文章可论述研究结果并且可包括与所述研究相关联的某些测量数量或测量值。期刊文章可包含对测量值的论述(例如,测量值表示什么、如何获得这些测量值等等)。通过阅读期刊文章和围绕测量值的背景,读者可获知有关测量值的信息。然而,可能需要系统自动从期刊文章提取测量值并且确定可呈现给用户的测量值的背景。用户接着可快速获知期刊文章中包含的测量值且不必阅读期刊文章本身。此外,通过从多种期刊文章或其它科学文献中包含的测量值提取背景,可创建汇总来自海量科学文献大型语料库的测量值的数据库。对获知与特定测量值相关联的特定主题感兴趣的用户接着可搜索所述数据库。
[0016]在本文公开的实施例中,系统可扫描期刊文章或其它科学文献以检出其中包含的数值或数量。这些数值可表示科学测量。所述系统接着可提取在检出的每个数值周围的文本部分(例如,句子、段落等等)。接着可将提取文本编码或映射到向量表示,并且可使用多轮问题回答分析文本的向量表示以获知每个数值的背景。所述系统接着可输出包含在文件中检出的每个数值和与每个值相关联的背景的列表。
[0017]所述系统可另外对语料库中的多篇文章或其它文件执行这些功能。对于语料库中的每个文件,所述系统可输出包含其中包含的数值和与所述数值相关联的背景的列表。此列表接着可汇总到数据库中,所述数据库包含在整个语料库的文件中与以数字表示的数量和那些以数字表示的数量的背景相关联的数据。用户接着可搜索所述数据库。
[0018]现在参考图式,图1描绘根据本文中展示和描述的实施例的说明性计算网络,其说明用于执行本文中描述的功能系统的组件。如图1中所说明,计算机网络10可包括广域网(例如因特网)、局域网(LAN)、移动通信网络、公共电话网(PSTN)和/或其它网络,并且可被配置为电子连接用户计算装置12a、服务器计算装置12b和管理员计算装置12c。
[0019]用户计算装置12a可用以促进本文中描述的测量值数据库的搜索,显示和接收来自图形用户界面的用以执行这类搜索的输入,并且显示这类搜索的结果集。也可利用用户
计算装置12a执行其它用户功能。
[0020]管理员计算装置12c可对服务器计算装置12b执行管理功能等等。在服务器计算装置12b需要监督、更新或校正的情况下,管理员计算装置12c可被配置为提供所要的监督、更新和/或校正。管理员计算装置12c以及耦合到计算机网络10的任何其它计算装置可用以将一个或多个文件(例如,电子文件)输入到文件数据库中。
[0021]服务器计算装置12b可接收来自用户计算装置12a的搜索查询并且可执行对测量值数据库的搜索以使用本文公开的技术识别与所述查询有关的测量值和/或文件的结果集。在执行搜索并且识别结果集之后,服务器计算装置12b可将结果集传输给用户计算装置12a以使得用户计算装置12a可显示所述结果集。将在下文详细地阐述服务器计算装置12b的组件和功能性。
[0022]应理解,虽然用户计算装置12a和管理员计算装置12c描绘为个人计算机且服务器计算装置12b描绘为服务器,但这些是非限制性实例。更具体地,在一些实施例中,任何类型的计算装置(例如,移动计算装置、个人计算机、服务器等等)可用于这些组件中的任一个。另外,虽然这些计算装置中间每一个在图1中说明为硬件的单个片段,但这也仅仅是实例。更具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在计算装置处接收电子文件;识别所述文件中的数值;从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本;创建所述提取文本的向量表示;产生与所述提取文本相关联的系列问题;基于所述提取文本的所述向量表示产生对所述系列问题的回答;基于对所述系列问题的所述回答确定与所述数值相关联的背景;和将所述数值和与所述数值相关联的所述背景存储于数据库中。2.如权利要求1所述的方法,其中所述数值与科学测量相关联。3.如权利要求2所述的方法,其中与所述科学测量相关联的所述背景包括所测量的实体的性质、被测量性质的所述实体以及进行所述科学测量时所处的条件。4.如权利要求3所述的方法,还包括:将所述数值和与所述数值相关联的所述背景存储于数据结构中,所述数据结构包括:数量,所述数量用于保存所述数值;测量的实体,所述测量的实体用于保存被测量性质的实体;测量的性质,所述测量的性质用于保存被测量的所述实体的性质;和限定词,所述限定词用于保存进行所述科学测量时所处的条件。5.如权利要求2所述的方法,还包括:识别与所述数值相关联的测量单位。6.如权利要求2所述的方法,还包括:识别与所述数值相关联的公差。7.如权利要求2所述的方法,还包括:识别与所述数值相关联的标准偏差。8.如权利要求1所述的方法,还包括:使用自然语言处理算法创建所述提取文本的向量表示。9.如权利要求8所述的方法,其中所述自然语言处理算法包括来自转换器的双向编码器表示。10.如权利要求1所述的方法,其中基于对前一问题的回答产生所述系列问题中的至少一个问题。11.如权利要求1所述的方法,还包括:基于问题回答模型产生对所述系列问题的回答。12.如权利要求11所述的方法,其中所述问题回答模型至少部分地基于斯坦福问题回答数据集。13.如权利要求1所述的方法,还包括:识别所述提取文本的主...

【专利技术属性】
技术研发人员:科里
申请(专利权)人:爱思唯尔有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1