一种基于LCS和TF-IDF的相似字符串确定方法及装置制造方法及图纸

技术编号:26973817 阅读:36 留言:0更新日期:2021-01-06 00:07
本申请提供了一种基于LCS和TF‑IDF的相似字符串确定方法及装置,其中,该方法包括:计算同义词字典中各同义词的TF‑IDF值;从同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到,则计算该字符串与相应同义词的最长公共子序列长度和距离以及非公共子序列中包含的所有字符的TF‑IDF值总和;对相应同义词按照最长公共子序列长度降序排列得到第一排序结果,对第一排序结果按照最长公共子序列距离和TF‑IDF值总和的和升序排列得到第二排序结果,返回第二排序结果中第一个字符串对应的目标标准写法信息;基于待归一的字符串和目标标准写法信息,确定待归一的字符串的相似字符串,可对结构化数据进行归一推理,取得了较好的结果,有利于下一步数据分析、挖掘。

【技术实现步骤摘要】
一种基于LCS和TF-IDF的相似字符串确定方法及装置
本申请涉及数据处理
,尤其是涉及一种基于LCS和TF-IDF的相似字符串确定方法及装置。
技术介绍
大部分医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含表格样式的文字描述。为有效处理和利用这些文本信息,需要将文本信息结构化。文本结构化由早期基于字典、规则的方法,到基于HMM、CRF等传统机器学习方法,再到基于BiLSTM-CRF、BiLSTM-CNN-CRF等深度学习方法,直到当下基于注意力机制、图神经网络等方法,已经取得了较好的效果。但结构化数据存在预测结果不准确、不完整的问题,为解决这个问题,可结合专业人士整理的相关归一推理文件,使用字符串相似度算法对预测结果归一推理,便于后期数据分析。目前关于字符串相似度计算的算法主要有:编辑距离(Levenshtein)、最长公共子序列(LongestCommonSubsequence,LCS)、余弦相似度(Cosinesimilarity)、Jaccard相似度。这些传统的字符相似度计算算法都基于当前字符本身进行推理,而对于字符中真正关键的语义很难捕捉。例如‘小细胞肺癌’和‘非小细胞肺癌’,不论上述哪一种算法,都是认为是非常相似的字符串。但是实际结果却截然相反。这是因为字符串中的每一个字符的重要程度并不相同。也就是说,‘非’字在这个例子中应该被给予更多的关注。申请人在研究中发现,现有技术中使用以上算法返回结果并不十分理想。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于LCS和TF-IDF的相似字符串确定方法及装置,既考虑了字符串之间的最长公共子序列长度和字符串之间的距离,也考虑了对应同义词中每个字符串中字符对该字符串的重要程度,可对结构化数据进行归一推理,取得了较好的结果有利于下一步数据分析、挖掘。第一方面,本申请实施例提供了一种基于LCS和TF-IDF的相似字符串确定方法,包括:计算同义词字典中各同义词的TF-IDF值;从所述同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。在一种可能的实施方式中,通过以下步骤获取同义词字典:获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。在一种可能的实施方式中,通过以下步骤计算同义词字典中各同义词的TF-IDF值:基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。在一种可能的实施方式中,所述方法还包括:若查找到待归一的字符串对应的标准写法信息,则将该标准写法信息确定为目标标准写法信息。第二方面,本申请实施例提供了一种基于LCS和TF-IDF的相似字符串确定装置,包括:第一计算模块,用于计算同义词字典中各同义词的TF-IDF值;查找模块,用于从所述同义词字典中查找待归一的字符串对应的标准写法信息;第二计算模块,用于在未查找到待归一的字符串对应的标准写法信息时,计算该字符串与相应同义词的最长公共子序列长度和距离;第三计算模块,用于计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;排序模块,用于对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;确定模块,用于基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。在一种可能的实施方式中,所述装置还包括获取模块,所述获取模块包括:获取单元,用于获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;第一确定单元,用于根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。在一种可能的实施方式中,所述第一计算模块包括:第二确定单元,用于基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;第三确定单元,用于基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;第四确定单元,用于基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。在一种可能的实施方式中,所述第二计算模块还用于:在查找到待归一的字符串对应的标准写法信息时,将该标准写法信息确定为目标标准写法信息。第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。本申请实施例提供的一种基于LCS和TF-IDF的相似字符串确定方法,首先计算同义词字典中各同义词的TF-IDF值;从所述同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-本文档来自技高网...

【技术保护点】
1.一种基于LCS和TF-IDF的相似字符串确定方法,其特征在于,包括:/n计算同义词字典中各同义词的TF-IDF值;/n从所述同义词字典中查找待归一的字符串对应的标准写法信息;/n若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;/n计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;/n对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;/n基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。/n

【技术特征摘要】
1.一种基于LCS和TF-IDF的相似字符串确定方法,其特征在于,包括:
计算同义词字典中各同义词的TF-IDF值;
从所述同义词字典中查找待归一的字符串对应的标准写法信息;
若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;
计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。


2.根据权利要求1所述的方法,其特征在于,通过以下步骤获取同义词字典:
获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。


3.根据权利要求1所述的方法,其特征在于,通过以下步骤计算同义词字典中各同义词的TF-IDF值:
基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。


4.根据权利要求1所述的方法,其特征在于,还包括:
若查找到待归一的字符串对应的标准写法信息,则将该标准写法信息确定为目标标准写法信息。


5.一种基于LCS和TF-IDF的相似字符串确定装置,其特征在于,包括:
第一计算模块,用于计算同义词字典中各同义词的TF-IDF值;
查找模块,用于从所述同义词字典中查找待归一的字符串对应的标准写法信息;
第二计算模块,用于在未查找到待归一的字符串对应的标准写法信息时,计算该字...

【专利技术属性】
技术研发人员:马素芬魏博骆佳俊许永超李力行凌少平
申请(专利权)人:志诺维思北京基因科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1