一、引述
漢字鍵盤輸入(Chinese character input via keyboard),即操作者通過鍵盤(包括數字鍵盤、通用鍵盤等)向通信終端、計算機等信息設備手動鍵入漢字及標點符號的過程、技術和方法。又稱為漢字編碼輸入。它是計算機、通信終端和其它信息技術產品設備(如手機、PDA、電子詞典、學習機等)輸入漢字的主要方法之一。在國家標準GB/T 19246中,對于通用鍵盤漢字輸入系統給出的定義就是:由字(詞)編碼表、數據處理、輸入接口構成的將漢字、詞語的通用鍵盤元素編碼轉換為漢字內部碼的軟件系統。通用鍵盤漢字輸入系統由編碼層次和軟件層次組成。
欲更多了解計算機中漢字編碼介紹的請進入。
向信息技術產品設備輸入漢字的方法有兩種形式:一是自動識別輸入,包括漢字的自動識別和漢語言語的自動識別;另一種就是漢字鍵盤輸入。由于計算機最早由西方國家研制開發,它使用的鍵盤是面向輸入西文字符設計的,一個或兩個西文字符對應著鍵盤上的一個按鍵。漢字是大字符集,國家標準漢字編碼字符集包含的漢字已達8萬多字,專用的一鍵一字的漢字輸入鍵盤由于鍵太多、查找不便、成本又高等原因早已不再采用。利用只有幾十個鍵的計算機鍵盤(甚至只有十幾個鍵的通信終端鍵盤)輸入漢字時,無法使每個漢字與鍵盤上的按鍵一一對應,因此必須用一個或幾個按鍵的組合來表示漢字,這就是漢字的鍵盤輸入編碼。
設計一種漢字鍵盤輸入編碼方案,首先要利用漢字的音、形等特征信息,按照一定規則,對指定的漢字編碼字符集中的每一個漢字進行描述,然后再確定這些特征信息與鍵盤按鍵之間的對應關系,這樣就可以在普通西文鍵盤及數字鍵盤上輸入漢字了。
二、輸入編碼方案的分類
漢字的鍵盤輸入編碼方案有幾百種之多,能夠被廣泛接受的編碼方案應具有下列特點:易學習、易記憶、效率高(平均擊鍵次數較少)、重碼少、容量大(可輸入的漢字字數多)等。事實上,能夠在所有方面都做得很好的編碼方法還不多。
漢字輸入編碼的方案可以從不同的角度進行分類。例如從使用者的角度看有普及型(面向一般用戶)和專業型(面向專業的數據錄入人員)兩類。從編碼特征的角度看大體可以分成4類:
一是數字編碼。這是使用一串數字來表示漢字的編碼方法,例如電報碼、區位碼等,它們難以記憶,不易推廣。
二是字音編碼。這是一種基于漢語拼音的編碼方法,簡單易學,適合于非專業人員;缺點是同音字引起的重碼多,需增加選擇操作。
三是字形編碼。這是將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度較快,但編碼規則不易掌握,五筆字形法和表形碼屬于這一類。
四是音和形結合的音形碼或形音碼。它吸取了字音編碼和字形編碼的優點,使編碼規則適當簡化、重碼減少,但掌握起來也不容易。
五是智能漢字輸入法。它是在上述編碼輸入方案的基礎上,利用計算機等信息技術設備的高速處理和存儲能力,充分發揮計算機等的統計學習功能,實現字詞聯想、詞語聯想,并采用詞性、詞法、詞語搭配頻率、句法甚至部分語義和語用知識來輸入漢字,同時還自動記憶新詞,自動調整詞語頻率等,這些所謂的“智能漢字輸入法”,受到了廣大用戶的歡迎,目前應用較廣。
三、國家的標準規范
漢字鍵盤輸入的編碼方案雖然很多,但其中有些不符合國家語言文字的規范。例如,各種各樣的漢字拆分方式開展的萬“碼”奔騰地大比拼,雖然都能解決漢字的鍵盤輸入問題,但它們對漢字的不規范和無序拆分已經使漢字文化受到污染、干擾和破壞,貽害無窮。為此,我國從20世紀90年代中期開始加快了語言文字和中文信息處理領域的立法和國家標準、規范的制定。
已經公布的與漢字鍵盤輸入直接相關的國家標準主要有:GB/T 18031《信息技術 數字鍵盤漢字輸入通用要求》、GB/T 19246《信息技術 通用鍵盤漢字輸入通用要求》等(關于數字鍵盤和通用鍵盤(又稱標準鍵盤)的定義詳見下表3-0);以及與之密切相關的國家標準有:GB/T 25741《信息技術 漢字編碼字符集 漢字部首序和筆順序》、GB/T 15834《標點符號用法》、GB 18030《信息技術 中文編碼字符集》等等。
表 3-0:數字鍵盤和通用鍵盤的定義
國家語言文字委員會頒布的規范有:GF 3001《信息處理GB 13000.1字符漢字部件規范》、GF 3002《GB 13000.1字符集漢字筆順規范》、GF 3003《信息處理用漢語拼音方案表示規范通用鍵盤》。
上述標準與規范將納入國家技術法規而強制執行。作為產品出售的漢字鍵盤輸入系統,均應遵循上述標準和規范,并將編碼層次和軟件層次視為統一的漢字鍵盤輸入系統進行性能考核和產品認證。
1、總體性能要求
國家標準GB/T 18031和GB/T 19246中關于漢字鍵盤輸入系統的性能指標有3個:
一是易學性。易學性指的是學會使用漢字編碼輸入系統的時間應盡量短,并應符合使用漢語作為母語的使用者的思維習慣。
二是漢字輸入平均碼長。漢字輸入平均碼長的定義是:在輸入給定的測試樣本時,測得的輸入每個漢字的平均擊鍵次數,其計算公式為:
平均碼長 = 輸入樣本的擊鍵次數/測試樣本總字數(鍵/字)
三是重碼字詞鍵選率。重碼字詞鍵選率的定義是:在輸入給定測試樣本過程中,通過重碼選擇鍵確認的漢字字數與測試樣本總字數的百分比,其計算公式為(式中,采用輪換單個顯示重碼字(詞)人工確認輸入的漢字計入“重碼選擇鍵確認的字數”):
重碼字詞鍵選率=(重碼選擇鍵確認的字數/測試樣本總字數)×100%
下表3-1-1和表3-1-2分別給出了數字鍵盤和通用鍵盤采用各種輸入方式(拼音、筆畫和部件等)時,對于平均碼長與重碼字詞鍵選率的具體指標要求。
表3-1-1:數字鍵盤對于不同輸入編碼方式的平均碼長與重碼字詞鍵選率的指標要求
表3-1-2:通用鍵盤對于不同輸入編碼方式的平均碼長與重碼字詞鍵選率的指標要求
作為面向市場的漢字鍵盤輸入系統,應該通過標準符合性測試、產品論證和專家技術鑒定。其中,標準、規范、性能指標測試原則上由政府授權的中文信息處理產品標準符合性檢測中心進行。
2、字匯與編碼規范
通過鍵盤(包括數字鍵盤和通用鍵盤)編碼輸入的漢字字匯,應是GB 18030《信息技術 中文編碼字符集》中的漢字及標點符號。注意,GB 18030中有實現級別的要求。
欲詳細了解中文編碼字符集(GB 18030)的請進入。
鍵盤(包括數字鍵盤和通用鍵盤)輸入編碼涉及的規范詳見下表3-2,包括漢語拼音、筆畫、部件等編碼。
表 3-2:鍵盤輸入編碼涉及的規范名稱
3、鍵位的設定
在GB/T 18031和GB/T 19246中,分別規定了數字鍵盤和通用鍵盤的在不同輸入方式下的鍵盤鍵位的設定要求,若要具體了解的請查閱下附件1、2。
附件 1:GB/T 18031-2016《信息技術 數字鍵盤漢字輸入通用要求》
附件 2:GB/T 19246-2003《信息技術 通用鍵盤漢字輸入通用要求》
溫馨提示:我們知道,對于計算機或相關智能終端設備的文字或字符輸入,除上述介紹的鍵盤輸入方法外,還有手寫輸入法(其采用手寫漢字識別技術)和語音輸入方式(其采用語音識別技術)等。手寫輸入方式的技術要求應符合GB/T 18790《聯機手寫漢字識別系統技術稍要求和測試規程》的相關規定;語音輸入方式的技術要求應符合GB/T 21023《中文語音識別系統通用技術規范》的相關規定。
欲詳細了解上述兩種輸入法具體技術要求的請進入。GB/T 18790;GB/T 21023
欲進一步了解我國漢字編碼字符集介紹的請進入。