我们是一群用复杂网络方法分析汉字结构的研究者。我们本身大都来自于物理学、数学等自然科学领域。我们从汉字的构形关系(汉字之间结构上的联系,结构和读音的联系,结构和含义的联系)出发,把所有的汉字之间的这样的关系看成一个汉字网络,或者说汉字地图。然后我们研究每一个汉字在最优的汉字学习顺序、最优检测算法等问题。目前,我们取得了一点点进展,同时很多项研究还正在进行中。本网站旨在开发利用本小组的研究成果来促进汉字以及汉语的学习,甚至把这样的基于概念地图的一般学科的学习。
利用汉字的构成关系来促进学习这个想法已经被很多学者和教育工作者注意到了,例如王宁、吕必松、张朋朋、Joël Bellassen等。了解了一个汉字与它的更基本的结构之间的关系,可以很好地理解这个汉字的 本义 ,进而理解这个汉字如何构成相应的词,进而习得这些词,乃至句。例如“木”、“林”、”森”,了解其构成关系就可以举一反三,学习成本大大降低。我们的基本问题是:第 一、在个体的层次,能不能给所有的汉字都找出这样的关系。第二、如果在个体的层次这样的关系是普遍的,那么是否存在一个整体的最优学习顺序,以及是否存在一个最优的汉字识字检测算法。前者需要在字源和字用的层次对每一个汉字做分析,后两者可以通过把汉字看成一个网络来研究。
通过对前者的研究(其实大多数时候就是资料整理、对比、鉴别等比较基础的“低级的”研究),我们得到了汉字地图。通过对后者的研究,我们得到了汉字 学习顺序 (及其算法)和汉字检测算法。我们这个网站将基于这三样东西:汉字地图、汉字学习顺序算法、汉字检测算法来提供服务,帮助广大汉语学习者和教师,来更好地做汉字和汉语的教和学。
在这张汉字地图(如图1)上,每一个顶点就是一个汉字。如果两个汉字存在构字关系,则从用来构字的汉字到构成的汉字之间连接一条有向边,例如从“大”和“一”到“天”。我们拆分的时候尽量逐层拆分,例如“照”先做“昭”和“火”的拆分,然后“昭”拆分为“日”和“召”,“召”再拆分为“刀”和“口”。我们所作的拆分到基本汉字(也就是基本表意或者表音单位)为止,而不是到笔画。如图2。
图1:汉字形、音、义联系大图
图2:汉字的层次性的有联系的拆分。我们这个拆分停止在具有形音义的汉字而不是不表达含义的笔画。
当然我们的汉字拆分肯定有进一步提高的空间。我们的汉字本义与汉字字源的解释也有各种各样的缺陷。我们专门为注册用户设计了反馈模块。另外字源图片和本义图片的功能也希望用户和我们一起来建设和完善。希望能够得到大家的支持和关爱。基于我们自己对以上这些问题的研究,我们初步建设了这个网站。
我们提供的资料包括:
数据来源说明和数据来源列表:
分析工作的主要思想和技术:
本研究工作有几个核心思想。第一、知其然知其所以然,可以帮助学习。第二、知其所以然的方式之一是运用事物之间(这里具体指字和字之间在结构上、一个字的形音义之间)的联系。第三、联系包含直接和间接联系,如何从直接联系到间接联系可以借助数学建模和数学计算。具体这些思想是如何在这项研究工作之中发挥作用的,可以看我们的研究论文(见引用部分的说明)。
我们的数据怎么用?
首先,怎么用完全取决于你我们的用户。其次,典型应用可以是在个体汉字的教和学的层次,在我们的数据(网站)中查出来所要教和学的字,看一看构成这个字的更基本的字和这个字构成的更复杂的字,这样更好地明白这个字的形音义,从而把这个字学得更好。目前这一部分已经完成。典型应用还可以是在整体的层面,参考我们的汉字学习顺序,以及运用我们的学习顺序算法,看看在你目前的已经认识的汉字的基础上,什么样的学习顺序能够有好的学习效率,甚至运用我们的检测算法检测出来目前已经认识的字有哪一些。不过,目前这一部分功能还没有在网站上发布。敬请期待。
需求:如果你有儿童字频统计,不管是口语还是书面语,都欢迎跟我们合作。让我们一起帮助全世界的孩子们更轻松地学习汉语!
引用:如果您的学习和研究使用了我们提供的数据,请引用我们的文章:Xiaoyong yan, Ying Fan, Zengru Di, Shlomo Havlin, Jinshan Wu, Efficient learning strategy of Chinese characters based on network approach, PloS ONE, 8, e69745 (2013) DOI: 10.1371/journal.pone.0069745,或我们的网站:汉字理解型学习(www.learnm.org)。
本项目组成员:闫小勇、宋玉鲲、沈哲思、鲍建樟、吴金闪
致谢:本项目得到宁德时代新能源科技股份有限公司的支持。
联系我们: jinshanw@bnu.edu.cn, yanxy@bjtu.edu.cn, syk0126@126.com
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。如果您希望基于我们的数据做商业或者其他开发但是突破这个共享协议,请联系我们。