幾星期前《經濟學人》中國版登了一幅薄熙來沒精打彩出席人大會議的照片,我對薄熙來毫無興趣,唯那桌上的名字牌吸引了我的注意。「薄熙来」三字,最難寫的二字沒有簡筆,反而最不需要簡化的「來」字則由八劃似有若無地減至七劃,設計簡體字的人是否有些本末倒置?
簡體字並非為薄熙來而設,為的是簡化廣大群眾的日常用字。「來」字比較常用,簡化得益較為顯著;「薄」和「熙」不常見,不簡化也損失無多;或許就是簡體字設計者的原意。三個字的樣本太小,要看更多的字才能揣摩設計者的心思。
首先略述簡體字的歷史。文字一向都是約定俗成;到了清朝末年,國家長期積弱,一些知識分子興起變法圖強之念,為了普及教育開啟民智,遂有把漢字簡化甚至拼音化的念頭,播下近代「中央主導」推行文字改革的種子。1935 年,國民政府教育部選定了民間流傳最廣的 324 個俗體字,公佈了《第一批簡體字表》,將之編入小學課本,可是遭到一些元老大力反對,改革建議終得收回。二次大戰之後,中共建國,1952 年成立中國文字改革研究委員會,負責簡化漢字。1956 年 1 月,國務院正式公佈《漢字簡化方案》,簡體化分批進行。1964 年再公佈《簡化字總表》,就是今天內地通行的簡體字。
圖一、二顯示了漢字簡化前後的筆劃分佈。沒可能包括所有漢字,這裏是最常見的一千個,紅色表示最常見,愈趨淺藍的愈是少見。
我採用了中文大學人文電算硏究中心的現代漢語常用字頻率統計資料庫。由於簡化工作在五、六十年代內地進行,簡化前後的變化亦應以當時的用字模式作準,故二圖及本文餘下的調查都是根據六十年代大陸的一千個最常用字。為什麼一千個?這是方便的齊頭數,恰好涵蓋了九成的用字頻率;時間所限,未能作更廣泛調查。
圖一、二所見,漢字的筆劃範圍給「壓縮」了,這並不意外。簡化前,八至十二劃最多;簡化後,六至十劃最多,而且更集中。
我一向懷疑,即使不用刻意簡化,較常用的漢字應該都是傾向較淺的,因為愈淺的字愈容易寫,愈常寫的字愈有動機去簡化(我指的是民眾自行簡化,不必「中央主導」),官方推行的簡化運動只是人為加速了這一過程而已。圖一可見,紅色是偏向左邊的,表示繁體字已有「愈常用愈易寫」的傾向,證實了我的懷疑。
看圖不夠準確,可參考下表,繁體總筆劃由上而下不斷增多,證明愈常用的字筆劃愈少,未簡化已有這種傾向。
常用字排序 | 繁體總筆劃 | 簡體字數目 | 簡體字滲透率 | 筆劃簡化率 |
1-100 | 794 | 31 | 24.90% | 82.98% |
101-200 | 889 | 29 | 28.98% | 78.35% |
201-300 | 944 | 35 | 34.69% | 75.41% |
301-400 | 971 | 37 | 36.60% | 74.73% |
401-500 | 1107 | 43 | 42.17% | 74.38% |
501-600 | 1086 | 39 | 39.37% | 75.13% |
601-700 | 1137 | 39 | 39.30% | 76.25% |
701-800 | 1089 | 36 | 36.04% | 78.76% |
801-900 | 1110 | 36 | 35.98% | 79.68% |
901-1000 | 1189 | 36 | 36.51% | 78.68% |
累積數目 | 累積滲透率 | 累積簡化率 | ||
361 | 30.12% | 79.12% |
簡化「力度」最大在哪裏?上表列出數據,讓我解釋「簡體字滲透率」及「筆劃簡化率」之後,大家可以自行咀嚼。拿第一橫行作例,最常見的一百字之中,有簡體的 31 個,但簡體字滲透率不是 31%,因為它把字的出現頻率計算在內,高頻率的簡體字能夠拉高簡體滲透率,低頻率的簡體字影響較小;首一百字的簡體滲透率 24.90%,即是說,如果只用最流行的一百字作一篇文章,裏面大概 25% 是簡體字。用最流行的一千字作一篇文章,裏面大概三成是簡體(見「累積滲透率」)。
簡體字省去多少筆劃?這就是「筆劃簡化率」的意思,已將字頻計算在內。再拿第一橫行作例,首一百字的筆劃簡化率 82.98%,即是說,如果只用最流行的一百字作一篇文章,用繁體字寫需要一萬個筆劃,用簡體字寫同一文章大概需要 8,298 個筆劃。用最流行的一千字作一篇文章,用繁體字需要一萬個筆劃,用簡體字大概需要 7,912 個筆劃(見「累積簡化率」),省去大約二成「筆墨」。
上表所見,簡化效用最顯著集中在第 301 至 600 位(灰色部分),為什麼不是更高?最流行的字不是最應該着力簡化的嗎?依我看,簡體字設計者當然明白這道理,只不過很多最常用字筆劃已經不多,既然「簡無可簡」,也無謂「畫蛇添足」了。
(2012 年 4 月 6 日 信報副刋)
Glad to know that you are an R user. (Judging from the style of the graphs)
回覆刪除Yes, it's R. 只是初入門,那些根據字頻而變的顏色相信 R 也做得到,但我不懂做。我是用 PHP 輸出一千條 R command,逐點變少少顏色 plot 上去的。
回覆刪除很好, 我很喜歡你的文章, 每星期(幾乎每天...上癮了)必看!
回覆刪除加油!
-SillyGuy
不要上癮我的文章,花點時間做些有意義的事。
回覆刪除從前“寫”字的確是一項苦差,在方便書寫和掃除文盲的前提下,漢字簡化有其必要。在電腦和智能手機年代,很多人已不再執筆寫字,在大陸甚至出現一批只識得用鍵盤輸入,但不能寫字的新一代。(另一現象是有些小孩只懂得看電子錶而不懂得看時鐘,這是題外話。)所以開始有人提出恢復繁體漢字。
回覆刪除