基于汉字网络的理解型学习系统


我们是一群用复杂网络方法分析汉字结构的研究者。我们本身大都来自于物理学、数学等自然科学领域。我们从汉字的构形关系(汉字之间结构上的联系,结构和读音的联系,结构和含义的联系)出发,把所有的汉字之间的这样的关系看成一个汉字网络,或者说汉字地图。然后我们研究每一个汉字在最优的汉字学习顺序、最优检测算法等问题。目前,我们取得了一点点进展,同时很多项研究还正在进行中。本网站旨在开发利用本小组的研究成果来促进汉字以及汉语的学习,甚至把这样的基于概念地图的一般学科的学习。

利用汉字的构成关系来促进学习这个想法已经被很多学者和教育工作者注意到了,例如王宁、吕必松、张朋朋、Joël Bellassen等。了解了一个汉字与它的更基本的结构之间的关系,可以很好地理解这个汉字的 本义 ,进而理解这个汉字如何构成相应的词,进而习得这些词,乃至句。例如“木”、“林”、”森”,了解其构成关系就可以举一反三,学习成本大大降低。我们的基本问题是:第 一、在个体的层次,能不能给所有的汉字都找出这样的关系。第二、如果在个体的层次这样的关系是普遍的,那么是否存在一个整体的最优学习顺序,以及是否存在一个最优的汉字识字检测算法。前者需要在字源和字用的层次对每一个汉字做分析,后两者可以通过把汉字看成一个网络来研究。

通过对前者的研究(其实大多数时候就是资料整理、对比、鉴别等比较基础的“低级的”研究),我们得到了汉字地图。通过对后者的研究,我们得到了汉字 学习顺序 (及其算法)和汉字检测算法。我们这个网站将基于这三样东西:汉字地图、汉字学习顺序算法、汉字检测算法来提供服务,帮助广大汉语学习者和教师,来更好地做汉字和汉语的教和学。

在这张汉字地图(如图1)上,每一个顶点就是一个汉字。如果两个汉字存在构字关系,则从用来构字的汉字到构成的汉字之间连接一条有向边,例如从“大”和“一”到“天”。我们拆分的时候尽量逐层拆分,例如“照”先做“昭”和“火”的拆分,然后“昭”拆分为“日”和“召”,“召”再拆分为“刀”和“口”。我们所作的拆分到基本汉字(也就是基本表意或者表音单位)为止,而不是到笔画。如图2。

图1:汉字形、音、义联系大图

图2:汉字的层次性的有联系的拆分。我们这个拆分停止在具有形音义的汉字而不是不表达含义的笔画。

当然我们的汉字拆分肯定有进一步提高的空间。我们的汉字本义与汉字字源的解释也有各种各样的缺陷。我们专门为注册用户设计了反馈模块。另外字源图片和本义图片的功能也希望用户和我们一起来建设和完善。希望能够得到大家的支持和关爱。基于我们自己对以上这些问题的研究,我们初步建设了这个网站。

我们提供的资料包括:

  • 汉字结构与本义词典
    1. 简体字形
    2. 繁体字形
    3. 读音(汉语拼音)
    4. 字源(本义)解释
    5. 英文字源解释(待完成)
    6. 英文字义
    7. 使用频率
    8. 构件(该字由哪些字构成)
    9. 古代字形(甲骨文、金文、小篆)
    10. 与其他汉字的联系(局部汉字结构网络)。节点包含:
      • 目标汉字(中心节点)
      • 目标汉字的构件
      • 目标汉字参与构成的字(至多展示使用频率最高的20个字)
  • 用户个性化汉字学习顺序与学习进度系统(建设中)
    1. 用户学习进度记录与监督
    2. 用户个性化学习内容与学习顺序
    3. 可印刷的用户个性化学习资料生成
    4. 用户识字量检测
    5. 用户在汉字拆分、本义解释、字源分析等方面的反馈
  • 汉字地图下载(PDFJPG
  • 汉字构形数据(包含汉字拆分、使用频率、综合学习顺序)下载( Excel文件CSV文件Readme

数据来源说明和数据来源列表:

  1. 说文解字(许慎)
  2. 字源(李学勤 主编,天津古籍出版社,2012)
  3. 汉典:www.zdic.net
  4. 汉语多功能字库:humanum.arts.cuhk.edu.hk/Lexis/lexi-mf
  5. 香港字源(小学中文科常用字研究):ephchinese.ephhk.com/lcprichi
  6. 中国哲学书电子化计划:ctext.org
  7. 国学大师:www.guoxuedashi.com
  8. 小学堂:xiaoxue.iis.sinica.edu.tw
  9. 象形字典:vividict.com
  10. 汉字叔叔的汉字字源网站:hanziyuan.net
  11. 语料库在线:http://corpus.zhonghuayuwen.org
  12. Chinese text computing(中文文本计算):http://lingua.mtsu.edu/chinese-computing/statistics/index.html
在我们目前分享的数据中,每一个汉字的拆分、拆分的理据性解释,绝大多数情况下,都不是我们自己的,而是来自于上面的几个主要资料。在每一字下面,我们都列出来了资料来源。我们主要完成的工作第一是对这些资料的整理和比较鉴别,第二是基于这些整理出来的拆分做进一步的学习顺序和检测算法的研究。因此,对于拆分和理据解释,我们只有整合和呈现部分的版权,没有也不主张这部分内容本身的版权。不过,我们对于采用的每一项都用参考文献的给出了来源。如果将来有从用户反馈中进入我们的整理好的某个字的数据里面,我们也会把起到主要作用的用户的姓名(或者其他用户确认同意的署名方式。所以,也请我们的用心的来提出反馈的用户一定要报告您的资料来源,这样我们的数据保持一致的质量和习惯)放到这个字的拆分和理据解释的数据来源里面。

分析工作的主要思想和技术:

本研究工作有几个核心思想。第一、知其然知其所以然,可以帮助学习。第二、知其所以然的方式之一是运用事物之间(这里具体指字和字之间在结构上、一个字的形音义之间)的联系。第三、联系包含直接和间接联系,如何从直接联系到间接联系可以借助数学建模和数学计算。具体这些思想是如何在这项研究工作之中发挥作用的,可以看我们的研究论文(见引用部分的说明)。

我们的数据怎么用?

首先,怎么用完全取决于你我们的用户。其次,典型应用可以是在个体汉字的教和学的层次,在我们的数据(网站)中查出来所要教和学的字,看一看构成这个字的更基本的字和这个字构成的更复杂的字,这样更好地明白这个字的形音义,从而把这个字学得更好。目前这一部分已经完成。典型应用还可以是在整体的层面,参考我们的汉字学习顺序,以及运用我们的学习顺序算法,看看在你目前的已经认识的汉字的基础上,什么样的学习顺序能够有好的学习效率,甚至运用我们的检测算法检测出来目前已经认识的字有哪一些。不过,目前这一部分功能还没有在网站上发布。敬请期待。

需求:如果你有儿童字频统计,不管是口语还是书面语,都欢迎跟我们合作。让我们一起帮助全世界的孩子们更轻松地学习汉语!

引用:如果您的学习和研究使用了我们提供的数据,请引用我们的文章:Xiaoyong yan, Ying Fan, Zengru Di, Shlomo Havlin, Jinshan Wu, Efficient learning strategy of Chinese characters based on network approach, PloS ONE, 8, e69745 (2013) DOI: 10.1371/journal.pone.0069745,或我们的网站:汉字理解型学习(www.learnm.org)

本项目组成员:闫小勇、宋玉鲲、沈哲思、鲍建樟、吴金闪

致谢:本项目得到宁德时代新能源科技股份有限公司的支持。

联系我们jinshanw@bnu.edu.cn, yanxy@bjtu.edu.cn, syk0126@126.com

知识共享许可协议

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。如果您希望基于我们的数据做商业或者其他开发但是突破这个共享协议,请联系我们。