君生我未生, 我生君已老。
君恨我生迟, 我恨君生早。
唐/无名氏
曾经沧海难为水,除却巫山不是云。
取次花丛懒回顾,半缘修道半缘君。
唐/元稹
“仓颉输入法原名形意检字法,是最早的电脑中文输入法,由朱邦复在1976年发明,属于形码输入法。”
“五笔字型输入法(简称五笔、王码)是王永民在1983年8月发明的一种汉字输入法。因为发明人姓王,所以也称为“王码五笔”。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。”
鄙人初学仓颉输入法,请各位不吝批评、指正。谢谢!
一、字根
五笔字型86版:234个;
仓颉五代: 114个。
二、取码规则:
五笔字型:
“书写顺序、取大优先、兼顾直观、能连不交、能散不连。”
五笔字型,按书写顺序取码, 实际是作茧自缚。
因为各人书写习惯不同, 必然导致打字不断出错。
例如:“戈、我”之类的汉字, 根据网络资料, 有的最后一笔是“撇/丿”, 有的最后一笔是:“点/丶” 。
鄙人习惯是写完斜钩, 再写斜钩上的一撇, 最后写一点。
有人担心如果不按笔顺取码, 会造成写字混乱, 这是杞人忧天。
古往今来, 人们的书写工具变了很多:刀、毛笔、铅笔、钢笔、圆珠笔等等。
其实, 只要把电脑打字, 看成一种书写工具就好了。
再说, 无论是拼音打字, 还是五笔、仓颉打字, 人们向电脑输入的都是英文字母。
可是, 并没有人因此手写汉字时, 把汉字写成英文字母。
说字形码会造成手写汉字混乱, 其实是危言耸听。
“目", 仓颉码:月山/BU。
仓颉输入法, 将“目"字拆分为“月”+“凵”,人们手写“目”字时,不会真的将“目”字断开来写, 而是怎么方便就怎么写。
仓颉:
完整原则:保留字形特征;
省略原则:部分省略、包含省略。
“一刀分两半”。
不能分割, 整体字(连体字), 取一、二、三、尾码, 最多取四码。
可以分割, 组合字(分体字), 分为字首、字身,合计最多五码。
字首,取一、尾码,最多两码。
字身,最多三码。
字身, 为整体字(连体字), 取一、二、尾码。
字身, 为组合字(分体字), 再分为次字首、次字身。
次字首,取一码, 或者一、尾码;
次字身,取一、尾码, 或者尾码。
无论仓颉, 还是五笔, 一个汉字与单笔画相连、相交,都有可能改这个汉字的结构类型(仓颉:连体、分体; 五笔:左右、上下、杂合)。
可是,五笔字型,有时不足四码,要考虑字型结构,费心费力。
也就是, 不足四码时, 要看最后一个笔画的类别(横、竖、撇、捺、折), 与整个字的结构类型(左右、上下、杂合), 组合起来,构成一个末笔识笔码。
但是, 大脑取得末笔识别码, 实在是需要经过大量计算,劳心劳力。
仓颉是首先对汉字砍一刀,
不能分割, 连体字;
能分割,分体字,然后对字首、字身(次字首、次字身)分别按规则取码。
首先看到森林:分为连体字、分体字;
然后再看树木:对汉字的各个零件分别取码,再合并组成仓颉编码。
“相同的字首或字身, 其字码固定。”
来源:《第五代倉頡輸入法手冊》第62页。
三、例外字:
五笔字型的例外字, 需要自己打字时, 不断总结。
仓颉所有的例外字,在《第五代倉頡輸入法手冊》第85页开始列明, 在以下网页,已经全部列出。
而且例外字, 实际成为一个大字根, 可以和其他汉字再组合成字。
倉頡輸入法/例外字
https://zh.wikibooks.org/wiki/%E5%80%89%E9%A0%A1%E8%BC%B8%E5%85%A5%E6%B3%95/%E4%BE%8B%E5%A4%96%E5%AD%97
四、成字字根
五笔
键名汉字的编码: 连敲所在键的字母四次。
(一级简码:根据每一键位上的字根形态,每键安排一个最常用的高频汉字,这类字只需打一键即可。)
成字字根汉字的编码规则:键名码+首笔码+次笔码+末笔码。
例如:
戈/A: AGNT(工 + 横 + 斜钩 + 撇);
士/F: FGHG(土 + 横 + 竖 + 横)。
猜想:
成字字根汉字的编码规则,
如果改为笔画一、二、三、末笔码, 难度与现在一样。
如果改为像仓颉一样,按正常方式取码,一些可以用其他字根(非单纯笔画)组成, 一些只能用单纯笔画, 一笔一笔的组成。
结论:五笔字型的字根集合, 决定了它现在的成字字根编码方式。
也就是五笔字型有许多大字根, 是由其他小字根组成。
仓颉五代, 除了键名字根24个之外, 还有90个字根, 相应的成字字根数量很少。
仓颉五代, 只有少数几个大字根, 是由其他小字根组成。
所谓小字根,至少由两笔组成,不包含只有一笔单纯基本笔画的字根。
因为可以说所有的字根都是由五个基本笔画(横、竖、撇、捺、折)组成, 那样说了等于没说, 没有意义。
仓颉
键名代表字: 敲所在键一次。
成字字根汉字的编码规则: 按正常方式取码。
例如:
工/M: 一中一/MLM(横+纵+横);
士/G: 十一/JM(交+横)。
有些单笔画、多笔画, 与键名代表字一样, 只取一码。
例如: 一、丨、丿、丶, 亅、乂、㐅, 都只取一码。
对比两种输入法,就可以知道, 五笔字型的成字字根之取码规则, 实际就是重复取码, 重复取了键名码,而且增加了大脑记忆量。
五、总结取码规则:
五笔字型
1、最高频25个汉字, 只敲一码;
2、键名字, 连敲键名四下;
3、成字字根:键名码+首笔码+次笔码+末笔码;
4、一般汉字:取一、二、三、末,共四码;
5、不足四码, 增加末笔识别码。
仓颉:
1、键名字, 敲键名一下;
2、成字字根: 按正常方式取码;
3、整体字(连体字): 取一、二、三、尾码,最多四码;
4、组合字(分体字):字首, 取一、尾, 最多两码; 字身(次字首、次字身), 最多三码, 合计最多五码。
仓颉, 不会补充末笔识别码, 也不会重复取码。
六、重码率
超出8105个简体常用汉字范围,五笔字型重码率远远大于仓颉。
如果统计70391个汉字, 五笔字型重码率是48.51%, 仓颉为28.03%。
输入法 汉字范围 重码数量 重码率
cangjie5 3500 130 3.71%
wubi86 3500 46 1.31%
cangjie5 6500 336 5.17%
wubi86 6500 216 3.32%
cangjie5 8105 486 6.00%
wubi86 8105 437 5.39%
cangjie5 12041 847 7.03%
wubi86 12041 1685 13.99%
cangjie5 16361 1488 9.09%
wubi86 16361 3081 18.83%
cangjie5 70391 19734 28.03%
wubi86 70391 34147 48.51%
五笔字型,下列汉字全部重码,
仓颉输入法, 下列汉字全部唯一编码。
贝/赢,羊/羸,女/嬴,虫/蠃,果/臝,馬/驘,貝/贏,鳥/鸁
当然, 不能以仓颉之长攻五笔之短。
肯定有仓颉重码, 而五笔不重码的情况。
但是, 从整体来看, 五笔重码率远远大于仓颉, 是因为双方不同的字根、编码规则造成。
也就是说,重码率高,是五笔字型输入法的先天规则缺陷。
对比, 才知道两种输入法, 谁优谁劣。
怪不得有人说:吃过荔枝, 才知道生李子苦涩。
七、总结:
拼音输入法, 如果联网, 则侵犯隐私。
联想、提示词语, 其实也是一种变相的八股、教条、可能会限制人的自由思考。
五笔字型,要求遵守笔顺, 是作茧自缚。
字根多, 规则繁, 记忆量大。
学习, 或者重新学习的成本高。
仓颉输入法, 不按笔順,按视觉,”一刀分两半“,拆分汉字。
规则简单明瞭, 像拆积木一样拆码。
打字变成了游戏, 十分好玩。
学习, 或者重新学习的成本低。
所以, 鄙人使用仓颉输入法, 不打词语, 只打单个汉字, 自由组合汉字。
小时候, 联网的拼音输入法,已经是一统天下, 但是家人让我学习五笔字型86版输入法。
电脑中有仓颉输入法, 不知道当时为什么没有去学习?
因为是台湾人发明的, 因为没有教材,因为没有人引导……
还好这次没有当面错过, 没有入宝山,空手而返。
子曰:“朝闻道,夕死可矣。”
论语/里仁篇第四
附录:
汉字字频表/Chinese character frequency list
https://lingua.mtsu.edu/chinese-computing/statistics/char/list.php
有12041个汉字
常见汉字字表和字符集
https://github.com/zispace/hanzi-chars/releases
小學程度漢字
https://www.hkcards.com/cj/list-primary-school-level
常用字表一
https://www.hkcards.com/cj/list-common
汇总以上中国、香港、台湾常用字集, 得到16361个汉字。
【五筆字型】輸入方案
https://github.com/rime/rime-wubi
有70391个汉字, 61205个词语。
如果喜欢五笔字型86版输入法, 上面链接中的字表(wubi86.dict.yaml)已经够用了。
倉頡三代補完計劃
https://github.com/Arthurmcarthur/Cangjie3-Plus
倉頡五代補完計劃
https://github.com/Jackchows/Cangjie5
蒼頡檢字法〔Cangjie6〕
https://github.com/lotem/rime-cangjie6
#仓颉
#倉頡
#cangjie
#五笔
#wubi
@board