2001论汉字数量的统计原则_动视

2001论汉字数量的统计原则

2025-10-05 01:35:30 责编:小OO

论汉字数量的统计原则

李运富

（原载《辞书研究》2001年第1期）

【提要】汉字数量的统计应该有科学的原则。以前对汉字数量的统计大都从书写角度出发，以笔画形体为据，或者从字用角度出发，以记词功能为据，这是值得商榷的。本文认为统计汉字应该从构形系统出发，坚持字形单位原则和构造功能原则，即根据字形的构造功能归纳成不同的字形单位，然后对单位的正体作出统计。这样，相对于仅据笔画形体的统计，应该把同功能异写字（含错讹字）的字数扣除，并加上同形异构字的字数；相对于仅据记词功能的统计，应该加上同符异构字，并将同音借用字的数量减去。

【关键词】汉字数量，统计原则，字形单位，构造功能

用来记录汉语的汉字究竟有多少，恐怕至今没有人能说得清楚。这不是因为无人统计，而是因为统计没有原则，或者虽有原则而这原则并不科学，所以统计出来的结果经不起推敲。目前所见有这样两种类型的字数统计：

一，累积型通用字典的字数统计。东汉许慎《说文解字》收正篆9353个，重文1163个；南朝梁顾野王《玉篇》收楷书约22000个；宋代司马光《类篇》收字31319个；宋丁度等《集韵》共收53525字；清张玉书等《康熙字典》共收47035字；近代陆费逵等《中华大字典》共收48000多字。又现代编纂的《汉语大字典》“是汉字楷书单字的汇编，共计收列单字56000左右”（前言），而最近出版的《中华字海》又将所收楷书字数上升到“85000余个”（前言）。

二，服务于特定语料的字表或字编中的字数统计。朱芳圃编《甲骨学文字编》收单字845个，重文3469个；中国科学院考古研究所编《甲骨文编》合正编、附录共计4672字；容庚编《金文编》正编收录金文字头2402个，重文19357个，附录收字1352个，重文1132个；容庚《金文续编》正编收字951个，重文6084个，附录收字34个，重文14个；张守中编《中山王厝器文字编》收单字505个，合文13个，存疑字19个，形体共2458个；秦公辑《碑别字新编》收字头2528个，别字12844个；罗福颐编《汉印文字征》正编收26字，重文7432字，附录收字143个，重文18个；滕壬生《楚系简帛文字编》共计摹写收录文字形体19250个，分为单字、合文、重文、存疑字四部分。

我们先不必拘泥于各家的具体字数，而应该考察一下这些数字是怎样得出来的。大致说来，上述数据的统计有两个原则，一是笔画形体原则，二是记词功能原则。所谓笔画形体原则，是从书写着眼的，只要笔画形体相同，即使代表不同的词也只算一个字；而凡是笔画上有差异的形体（包括错讹的形体），不管它是不是同一个字的不同写法，都算作不同的字。例如《汉语大字典》的所谓56000左右字和《中华字海》的85000余字就都是按这个原则统计出来的，因而象“世、丗、丗、卋、卋”被统计成了五个字，“户、戶、戸”也被统计为三个字。但按照这样的原则统计汉字理论上是不科学的，实际上也是难以办到的。因为汉字的书写变体千差万别，收不胜收，是根本无法作出精确统计的。《中华字海》号称“当今世界收汉字最多的字典”，而事实上远非汉字形体的全部，单就传世文献的印刷字体而言，我们已看到多篇“补遗”性质的文章，拾掇了许多漏收的形体，而我们翻阅魏晋以后的诗文杂录等口语色彩较浓的著作，还会时时遇见在《中华字海》中查不到的奇怪形体。要是加上手写本，例如吐鲁藩、敦煌等地文书中的俗字异体，那就更不得了。而且，《中华字海》虽是只统计楷书，但其中的许多形体实际上是历代从篆隶金石文字转写而来的，现在地下古文字层出不穷，如果按照同一原则，将所有古文字的各种形体转写成楷书而收入字典并加统计，例如上举各种字表字编中的形体（包括重文），那汉字的数量就会急剧膀胀，决不止几万，而是几十万、几百万，甚至上千万！何况随着汉字的继续沿用，个人手写体的千变万化，汉字形体的差异是无穷尽的，因而汉字的数量在这一原则指导下也将是永远无法精确统计的。

所谓记词功能原则，是从用字的角度出发，按照文献中是否记录同一个词来归纳和统计汉字，要是记录同一个词，即使写法和结构都不同，也仍然算作一个字，如果记词功能不同，同样的形体也被算作不同的字。上举服务于特定语料的字表字编中的字头大都是按这一原则设立和统计的，其所谓重文实际上是与字头算作一个字的。例如《楚系简帛文字编》一方面将有衣的“裘”和无衣的“求”列于同一“裘”字头下算作一个字，另一方面“凡一字而数用者分别重出”，即同一形体有时算作不同的几个字，包括同音借用现象。这样的处理原则混淆了字与词的界线，模糊了构形与字用的差异，虽有便于阅读之功（因为字头与词的用法对应），却完全不顾字的形体，实际上已超越汉字本体，当然更无法反映汉字数量的真实。

那么，究竟应该怎样来把握汉字的数量呢？我们认为首先应该确定究竟怎样才算一个“字”，字的单位不明确，要进行统计就无法操作。我们说记录汉语的书面符号体系一共有多少个“字”，这“字”当然是从构造的角度说的，意即为记录汉语而造过多少个字，并不是指写过多少个形体，也不是指用字记录过多少个词或义项，因此，统计汉字数量与汉字的书写（包括印刷）和汉字的使用虽然有关，但并不是一回事。我们应该从汉字的使用和书写实际中，着眼于汉字的构形来归纳和统计汉字的数量。为此，我们需要确立如下两个原则：

1、字形单位原则。即所谓多少“字”，这“字”是指经过归纳的形体单位而言，不是指一个个自然的书写形体。自然的书写形体往往是千差万别的，但其差别具有两种不同的性质，一种是形征差别，一种是功能差别。所谓形征，是指一个形体区别于另一个形体的外在特征。如笔画的有无，同样笔画的长短、粗细、曲直、走势及交接点的不同等，都构成外在特征的不同；构件的多少、同异，相同构件的不同位置、方向及所占面积的大小等，当然也构成外在特征的差别。可以说，除了电脑和机械印刷，任何一个手写的汉字形体都会有区别于另一个形体的特征，尽管这种区别特征有时会小得肉眼难以发现。手写形体之间的形征差异是普遍的客观存在，但这种差异是着眼于外形的，非本质的，并不一定引起形体结构或功能的变化，因而它不是构形分析的主要对象，也不能成为统计汉字的唯一根据。就是说，仅有形征差别的不同形体不一定要算作不同的“字”。

构形分析的主要内容应该是形体的功能，形体只有结合了功能才能体现自身的本质特征。如果我们把功能不同的形体区分为不同的单位，而把功能相同的形体集合为同一单位，那就会形成形体的类聚。这种类聚而成的同功能形体单位可以简称为形位。形体单位虽然是特定对象最小最基本的功能类聚，但往往包含两个以上不同形征的形体，为了指称的方便，通常选择其中的一个形体作该单位的代表，这样的代表形体就叫正体，与正体相对的可以叫变体。同一形体单位内部只有形征差别而没有功能对立，所以在统计时只能算作一个单位，也就是正体和变体应该按一个字计算，而不能仅仅因为它们有笔画等形征差异就分作几个字。从这样的原则出发，上举“世、丗、丗、卋、卋”等形体就应该只算作一个字，因为“丗、丗、卋、卋”等变体实际上只是正体“世”字的不同写法而已。“户”字的形体关系可以类推。

2、构造功能原则。形体单位具有不同的级别和层面，例如笔画形位、构件形位等。就全字的功能类聚来说，实际上又具有两种身份，一是字形，二是字符。字形有字形的功能，指的是直接构件的功能组合关系，也就是全字的构造意图或构形理据；字符有字符的功能，指的是全字作为书写符号应该用来记录语言中的哪个词，也就是字符的实际用法，包括本义和引申义。将字形功能相同的字样类聚为一个单位，我们把它叫字形单位，简称为字位；将字符功能相同的字样类聚为一个单位，我们称之为字符单位，简称为符位。字位与符位通常情况下是一致的，但有时一个符位可能拥有几个不同的字位。就是说，几个字形的构造功能不同，自然应是几个不同的字位，但都是为记录同一词语而造的，所以又属于同一个符位，这就是同符异构字。如“径”与“迳”，或从彳，或从辶，构造功能不同（体现为构件不同），属于两个字位，但都是语言中表小路义的“jìng”这个词项的固定符号，所以又属同一字符。

传统语言学中所称的“字”有时指字符（符位），有时指字形（字位），并不确定，如说“某字与某字实为一字”，前两个“字”是指称字形，后一个“字”则是指称字符。从字用的角度看，用法相同即算同一单位，所以上举字表类往往把“径”“迳”之类的异构字列于同一字头而算作一字。但从构形的角度看，既然构件不同，就是另造了不同的字，应该算作几个不同的单位。汉字数量的统计无疑是构形系统内的事，所以应该采取构形角度的原则，即只要构造功能不同，就应该算作不同的字，所以同符异构字是应该分别计算字数的。

根据同样的原则，同形异构字也应该算作不同的字。例如古文字上“隹”下“又”这一形体，既表示用手抓到鸟的“隻（获）”字，又表示手中只有一只鸟的“隻（只）”字，尽管形体相同，但构造理据不同，读音和记录的词项也各不同，实际上属于不同的字符，所以应该按两个字计算。这种不同字符共用同一字形的现象，跟借用同音字表示不同字符的情况是不同的。前者即同形异构字属于构形现象，形同而音义不同，但各自的形义之间都有固定的内在联系；后者即同音借用字属于字用现象，只借其音以记词，词义与借字的形体毫无联系。同音借用与构形造字无关，因而与字数的统计也无关，我们不能因为甲字临时借用为乙字就将甲字统计为甲乙二字。

总之，根据字形的构造功能归纳成不同的字形单位，对单位的正体作出统计，这样才能得出汉字的实际字数。相对于仅据笔画形体的统计，我们应该把同功能异写字（含错讹字）的字数扣除，并加上同形异构字的字数；相对于仅据记词功能的统计，我们应该加上同符异构字的数量，并将同音借用字的数量减去。如果对字际关系进行全面整理，再按这样的原则进行统计，其结果汉字的数量将大大减少，估计在四万字左右，绝不可能有八万以上，无论就楷书言还是包括所有的古文字。汉字的统计并不等于字典或字表的编纂，编纂中为了贮存资料便于查识，某些不在统计之内的异写字形也需要收录，但可以用括号附在相应的正体字后，不必单立字头，某些偶尔写错的形体也完全可以不收。

（作者：李运富教授通讯地址：100875 北京师范大学汉字研究所）下载本文

显示全文

全部频道