一种分析包括中文字文本的方法和系统技术方案

技术编号:38808252 阅读:11 留言:0更新日期:2023-09-15 19:47
本发明专利技术提供一种以计算机执行分析包括中文字文本的方法。包括步骤:将文本截取为分别具有第一预定义数量的N个字符的多个第一块单元;确定形成选定字符的一个或多个部首;通过将一个或多个部首与包括语义部首及其关联含义的数据库进行比较,识别一个或多个语义部首并确定与选定字符相关的一个或多个语义部首的一个或多个含义;基于每个第一块单元的选定字符的一个或多个语义部首的确定的一个或多个含义,将多个第一块单元分类为一个或多个类别组;计算分类在相应的一个或多个类别组中的第一块单元的数量以表示文本的一个或多个特征。征。征。

【技术实现步骤摘要】
一种分析包括中文字文本的方法和系统


[0001]本专利技术涉及一种以计算机执行用于分析文本的方法和系统,以及特别但非排他地,用于分析包括中文字的文本。

技术介绍

[0002]信息和计算机技术的进步对包括教育在内的我们生活的各个方面产生显著影响。使用电子化学习资源作为课堂内外的教学的媒介已经成为全球趋势。随着电子化学习普及率的扩大,开发了大量包括电子文本和电子教科书的电子教学资源。
[0003]然而,与传统学习资料相似,教育工作者和家长所面临的一个困难在于,通常难以评估电子资源是于合适主题或程度以满足特定教学或学习要求。而且还难以确定电子资源的内容是否能满足所需的特定学习目的,例如电子资源是否具有正确的主题、目的和/或类型。通常这些都是根据教育工作者和家长的经验进行评估,这容易受到主观看法的影响,因此可能是不准确的。
[0004]专利技术目的
[0005]本专利技术的一个目的是提供一种以计算机执行用于分析一段中文字的或包括中文字的电子文本的方法和系统。
[0006]本专利技术的另一目的是在某种程度上缓解或消除与已知电子文本分析产品关联的一个或多个问题,或者至少提供有用的备选方案。
[0007]上述目的通过独立权利要求的特征的组合来实现;从属权利要求公开了本专利技术的其他有利实施例。
[0008]本领域的技术人员将从以下描述中得出本专利技术的其他目的。因此,以上目的陈述不是穷尽的,而是只用来说明本专利技术的许多目的。

技术实现思路

[0009]在第一主要方面,本专利技术提供一种以计算机执行用于分析包括中文字的文本的方法。所述方法包括步骤:将所述文本截取为多个第一块单元,每个所述第一块单元具有第一预定义数量的N个字符,其中,N是整数并且大于或等于1;对于从每个所述第一块单元的所述N个字符中的选定字符,确定形成所述选定字符的一个或多个部首;通过将所述一个或多个部首与包括语义部首及其关联含义的数据库进行比较,从形成所述选定字符的所述一个或多个部首中识别一个或多个语义部首,并确定与所述选定字符相关的所述一个或多个语义部首的一个或多个含义;基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述确定的一个或多个含义,将所述多个第一块单元分类为一个或多个类别组;以及计算分类在相应的所述一个或多个类别组中的所述第一块单元的数量以表示所述文本的一个或多个特征。
[0010]在第二主要方面,本专利技术提供一种系统,包括用于存储数据的存储器和用于运行计算机可读指令的处理器,其中,在用于实现根据第一主要方面所述的方法时,所述处理器
通过所述计算机可读指令来配置。
[0011]本
技术实现思路
部分不是必然公开定义本专利技术的必不可少的全部特征;本专利技术可在于所公开特征的子组合来实现。
附图说明
[0012]通过仅作为举例结合附图来提供的对优选实施例的以下描述,本专利技术的以上和其他特征将是显而易见的,附图包括:
[0013]图1是示出根据本专利技术的一种以计算机执行用于分析包括中文字的文本的方法和系统的示意框图;
[0014]图2示出了两组七个类别组,每个类别组具有最高数量的块单元,所述数据基于通过图1的方法和系统分析包括中文字的两条示例文本生成,其中所述块单元由组成块单元的字符的形成语义部首的含义将块单元进行分类;
[0015]图3示出了一组七个类别组,每个类别组具有最高数量的块单元,所述数据通过图1的方法和系统分析包括中文字的示例文本生成,其中所述块单元由组成块单元的字符的形成语义部首的词性将块单元进行分类;
[0016]图4示出了如图3所示的词性的比率。
具体实施方式
[0017]以下描述仅作为示例性的优选实施例而不是对实施本专利技术所必需的特征的组合进行限制。
[0018]本说明书中提到“一个实施例”或“实施例”表示结合所述实施例所述的具体特征、结构或特性包含在本专利技术的至少一个实施例中。词语“在一个实施例中”在本说明书的各个位置中的出现不一定都表示同一个实施例,也不是对其他实施例互斥的独立或备选实施例。此外,描述了可由某些实施例而没有由其他实施例来呈现的各种特征。类似地,描述了各种要求,其对于某些实施例是需要的,而对于其他实施例则是不需要的。
[0019]应当理解,附图所示的元件可通过各种形式的硬件、软件或者其组合来实现。优选地,这些元件通过可包括处理器、存储器和输入/输出界面的一个或多个适当编程的通用装置上以硬件和软件的组合来实现。
[0020]参照图1,所示的是一种用于分析包括中文字的文本的方法和系统的示意框图。所述文本可为任何形式的书写,例如任何种类的中文或包括中文字的文章、评论、故事、诗歌或文献。在本说明书的上下文中,文本可包括书写或图形字符,例如一种或多种语言的中文字,例如但不限于繁体和简体中文的“汉字(hanzi)”、东亚语言,如日语书写系统中的“汉字(kanji)”、韩语书写系统中的“汉字(hanja)”和越南语书写系统中的“汉字(H
á
n)”。术语“字符”将被给予广泛含意,以包含“字母”、“字”、“数字”、“语标”、“表意文字”等。
[0021]中文字被认为是世界上最古老的书写系統之一,并在整个东亚和东南亚一直使用。中文字可以是表示字或词素的语标,并且通常可以由称为部首的图形组件形成。在绝大多数中文字中,部首本质上是语音语义的。例如,由两个或多个部首形成的中文字可以具有一个或多个部首作为语义表示符,并且一个或多个部首是表示字符发音的语音组件。部首可以出现在字符的任何位置。例如,部首“言”出现在字符的左侧,如“词”、“话”、“语”和
和“寺”两者本质上是或可以是语义的,而部首“寺”进一步表示所述字符的发音。两个部首的明确含义和隐含含义都将被确定。例如,部首“言”有“言语”的直接含义和隐含含义“语言”;而部首“寺”则有“庙”的直接含义和隐含的含义是与“古庙所存的历史家族规矩”相关联。随后,将分析第二个字符“词”以包括两个形成部首,即,“言”和“司”,其中部首“言”和“司”都是语义性质的,而部首“司”是语音部首。再一次,部首“言”有“言语”的直接含义和隐含含义“语言”;而部首“司”具有“控制、结构化”的关联含义。因此,这两个字符被组合处理,为块单元提供表示性含义,指的是“由规则构成的语言作品”,例如诗歌。
[0028]在确定块单元的选定字符中的形成部首的确定步骤和从形成部首中识别语义部首的识别步骤之后的结果,优选地存储在字符数据库140中,用于加速处理时间并用于系统的持续学习以提高由相应的模块30B和30C处理的确定和识别步骤的准确性。可选地,结果也可以存储在设备10的存储器14中。这些记录可以帮助确定块单元的使用频率,这可以进一步帮助确定被分析的文本的难度等级或程度。
[0029]基于确定的每个块单元的选定字符的一个或多个语义部首的一个或多个含义以及因此块单元的表示含义,然后经由分类模块30D将块单元分类为一个或更多个类别组。分类步骤在图1中示为D。当基于确定的所述字符的形成部首的含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种以计算机执行用于分析包括中文字的一段文本的方法,所述方法包括步骤:将所述文本截取为多个第一块单元,每个所述第一块单元具有第一预定义数量的N个字符,其中,N是整数并且大于或等于1;对于从每个所述第一块单元的所述N个字符中的选定字符,确定形成所述选定字符的一个或多个部首;通过将所述一个或多个部首与包括语义部首及其关联含义的数据库进行比较,从形成所述选定字符的所述一个或多个部首中识别一个或多个语义部首,并确定与所述选定字符相关的所述一个或多个语义部首的一个或多个含义;基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述确定的一个或多个含义,将所述多个第一块单元分类为一个或多个类别组;以及计算分类在相应的所述一个或多个类别组中的所述第一块单元的数量以表示所述文本的一个或多个特征。2.根据权利要求1所述的以计算机执行的方法,其中,将所述多个第一块单元分类为一个或多个类别组的所述方法还包括:基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述一个或多个含义的词性,将所述一个或多个第一块单元分类。3.根据权利要求2所述的以计算机执行的方法,其中,所述文本的所述一个或多个的特征包括所述文本的一个或多个主题、类型、程度和/或难度级别。4.根据权利要求3所述的以计算机执行的方法,其中,所述特征由每个所述第一块单元的所述选定字符的所述一个或多个语义部首的一个或多个所述词性的比率确定。5.根据权利要求1所述的以计算机执行的方法,其中,所述一个或多个语义部首的所述含义包括明确直接含义和隐含关联含义。6.根据权利要求1所述的以计算机执行的方法,其中,所述计...

【专利技术属性】
技术研发人员:梁伟峰
申请(专利权)人:衍利行资产有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1