發表文章

目前顯示的是 12月, 2023的文章

淺談漢字編碼原理

漢字拆分準則: 1.所有漢字皆由部首、部件與結構組成,但只有部件是非必要的組成要素 2.所有部首、部件的字型長相及4組結構合稱字元,在此我採用的字元數量有XXX個 3.所有字元分門別類後歸屬在不同部首下 4.意即每個部首底下有多種字元長相,而在此我定義每個部首至多四個(可能有部首不足四個) 例:人部:人亼从众;火部:火炎炏焱;而辵部僅:辵辶 漢字拆分範例: 1.漢字拆分時,依傳統筆畫的順序,優先書寫的字元優先拆解(不一定要寫完) 2.字元拆解完成後,依照字級還原的一級拆分,確認該字的結構組合 例:傘,傘,嵌套結構⿻;伙,人火,橫列結構⿰;剪;前刀,直行結構⿱;尾,尸毛,包圍結構⿴ 3.因此當一個漢字被拆解完成後會得到如下長相: 例:釀「酉衣吅𠀎⿰」、乘「丿木北⿻」、嵊「山丿木北⿰」 漢字編碼準備: 1.漢字拆分完成後,依照每個字元特性可將其進行編碼,意即輸入法化 2.在此我採用的輸入法(編碼)共有32組按鍵,稱為<倉易輸入法> 3.每組漢字拆分依照查表後可得一組新的長相,如下: 例:戀「絲言心⿱」->【線橫嘴體行】、患「串心⿱」->【豎無體行】、忠「中心⿱」->【豎無體行】 4.在得到新的長相後<倉易輸入法>會再進行幾件事情將其壓縮或差異化 漢字一字一碼: 1.編碼用的32組按鍵,依照部首所屬的字元使用多寡,將所有部首轉譯為以下按法(請查表) 2.而部首底下的至多四種字元,則可依32組按鍵中的「行列圍嵌」作對應 3.所有部首依照壓縮原則可分類為,主要、代理、輔型、整體。用以判斷不同情況下是否壓縮 4.無論何種壓縮狀況,當該字元為該字的部首時,不能做壓縮處理 5.壓縮完後,若仍遇到同碼,則依重碼原則將該字進行字級還原的多級拆分,補足結構鍵以確保差異化 例:患【豎無體行】、忠【豎無體行】編碼同,則患字需要進行重碼處理,變成患【豎無體行行】