發表文章

淺談漢字編碼原理

漢字拆分準則: 1.所有漢字皆由部首、部件與結構組成,但只有部件是非必要的組成要素 2.所有部首、部件的字型長相及4組結構合稱字元,在此我採用的字元數量有XXX個 3.所有字元分門別類後歸屬在不同部首下 4.意即每個部首底下有多種字元長相,而在此我定義每個部首至多四個(可能有部首不足四個) 例:人部:人亼从众;火部:火炎炏焱;而辵部僅:辵辶 漢字拆分範例: 1.漢字拆分時,依傳統筆畫的順序,優先書寫的字元優先拆解(不一定要寫完) 2.字元拆解完成後,依照字級還原的一級拆分,確認該字的結構組合 例:傘,傘,嵌套結構⿻;伙,人火,橫列結構⿰;剪;前刀,直行結構⿱;尾,尸毛,包圍結構⿴ 3.因此當一個漢字被拆解完成後會得到如下長相: 例:釀「酉衣吅𠀎⿰」、乘「丿木北⿻」、嵊「山丿木北⿰」 漢字編碼準備: 1.漢字拆分完成後,依照每個字元特性可將其進行編碼,意即輸入法化 2.在此我採用的輸入法(編碼)共有32組按鍵,稱為<倉易輸入法> 3.每組漢字拆分依照查表後可得一組新的長相,如下: 例:戀「絲言心⿱」->【線橫嘴體行】、患「串心⿱」->【豎無體行】、忠「中心⿱」->【豎無體行】 4.在得到新的長相後<倉易輸入法>會再進行幾件事情將其壓縮或差異化 漢字一字一碼: 1.編碼用的32組按鍵,依照部首所屬的字元使用多寡,將所有部首轉譯為以下按法(請查表) 2.而部首底下的至多四種字元,則可依32組按鍵中的「行列圍嵌」作對應 3.所有部首依照壓縮原則可分類為,主要、代理、輔型、整體。用以判斷不同情況下是否壓縮 4.無論何種壓縮狀況,當該字元為該字的部首時,不能做壓縮處理 5.壓縮完後,若仍遇到同碼,則依重碼原則將該字進行字級還原的多級拆分,補足結構鍵以確保差異化 例:患【豎無體行】、忠【豎無體行】編碼同,則患字需要進行重碼處理,變成患【豎無體行行】

文字雜談

在歷經幾個月後,做出了幾個重要的改動。包含了整併了部分部首與新增了兩個部首。其中有一個重要的改動是所有編碼字元必須是部首或其偏旁。在這些調整後,目前重碼率大約在2%左右,並且整理完13799字(包和常用字、次常用字及其對應的簡中與本字)另外增添了一個新的字卦,但看了下使用略或許後續之後可以整併回其他類別。 有興趣的可以到此參閱~ https://docs.google.com/spreadsheets/d/1XIdrbJQuYNDL_ymbvdvnEuO0IKZyJYU4SMNQsul9_9o/edit#gid=2086694851

方塊文字的奧妙

圖片
說起文字不知道大家是否覺得既熟悉又陌生?有多少人出了社會後依舊保有手寫文字的習慣?有多少人認識不只注音輸入法一種數位鍵入方式?關於中文漢字我們老是常常寫錯字或是糾人錯字, 但是脫離了筆桿子進入數位時代的我們,是否能找到一個好的系統既方便又合乎文字的發展脈絡? 對於數位輸入的百家爭鳴,筆者雖屬業餘,但亦有不少想法。希望在實踐的路途上做好各項紀錄,為自己的理論有更多踏實的準備,也讓 後進前輩有些資料可以參詳。希冀 漢字方塊的發展魅力不囿於發音的路子上~

《論漢字編碼不重複的可能及實踐方法》

圖片
  自接觸《倉頡輸入法》以降,甚是喜歡朱邦復先生對於漢字傳承的理念,但對於《倉頡輸入法》在某些省碼概念下仍有不滿。多方閱覽後,了解到漢字編碼的難處,專研此道十餘載,今日有興在此與各位前輩分享研究心得。基於以下方法(為之後稱呼方便該方法名為《倉易輸入法》,簡稱《倉易》;《倉頡輸入法》簡稱《倉頡》)作者拆解了6507個漢字無重碼,雖然對於浩瀚字海仍顯微小。但作者希望公布此方法讓有在關注編碼的前輩們,或感興趣的同好能接續發展。 漢字編碼研究(V1.0).xlsx 以上是成果網址。另外,在開始詳述《倉易》編碼邏輯之前,先來看看以下幾個篇章標題。這將方便各位閱讀時能找到要看的重點。 目錄: 一、書寫漢字帶給《倉易輸入法》的啟迪 二、《倉易輸入法》的框架介紹 三、《倉易輸入法》實務操作及安裝 四、《倉易輸入法》後話及總結 一、書寫漢字帶給《倉易輸入法》的啟迪 再談編碼之前,先講講幾個重要的書寫漢字特徵(為之後辨別之便,使用筆桿子書寫的漢字稱之為書寫漢字,簡稱漢書;使用按鈕敲擊呈現的漢字稱為數位漢字,簡稱漢碼),這將有助大家理解我的推演過程。 1.漢書不論筆畫多寡,字與字之間所佔據的空間是相同的,在此我稱之為手寫九宮格,而這將啟迪《倉易》一個重要的概念「無」字卦的概念,後續將再說明之。 2.漢書不論字形長相為何,字中必然藏有部首並且僅有一組。而《倉易》也將貫徹此一觀念,並且作為漢碼與漢書能一一對應的核心重點。 3.所有漢字皆能做一級字源拆分(意及每個字都有其源頭,不論其是否指向自己)而根據這份結果《倉易》將其拿來作為字形結構的分析,並從表意文字描述字符中提取四種名稱及符號「行⿱、列⿰、圍⿴、嵌⿻」做為《倉易》的確認鍵。 4.最後,漢字發展淵遠流長,許多書寫字體(甲骨、金文、小篆等等)因應書寫工具或習慣而發生改變,但之所以這些字體彼此還能看出傳承關係,不外乎是因為字裡行間的圖像符號有其一定的內在邏輯及規律,縱使少許的增筆或少筆甚至是變形亦能推敲得出。因此《倉易》拆解文字的精神是:若是編碼過程中,字形符號看似有多種拆解長相,則首重字形符號背後的涵義。例如:「告」、「先」的字形分析應當是「牛口」、「止儿」,那在《倉易》這兩個字的上半部就會視為兩種不同的編碼形體;而「義」、「羚」的字形分析應當是「羊我」、「羊令」那這兩個字的前半部就會使用相同的編碼概念。但字理的發展過程中出現嚴重...