《信息交換用漢字編碼字符集·基本集》是我國于1980年頒布的國家標(biāo)準(zhǔn),即《中華人民共和國國家標(biāo)準(zhǔn)信息交換漢字編碼》,簡稱國標(biāo)碼。國標(biāo)碼的主要用途是作為漢字信息交換碼使用。
在此標(biāo)準(zhǔn)中,每個漢字(圖形符號)采用雙字節(jié)表示,第一個字節(jié)的范圍從0XA1-0XF7,共87種,第二個字節(jié)的范圍從0XA1-0XFE,共94種,利用這兩個字節(jié)共可定義出87*94=8178種漢字,實際共用6763個漢字。
GB2312-80標(biāo)準(zhǔn)的漢字編碼表有94行,94列,其行號稱為區(qū)號,列位號,因此,我們也稱GB2312-80標(biāo)準(zhǔn)的漢字編碼為區(qū)位碼,雙字節(jié)中高字節(jié)表示區(qū)號,低字節(jié)表示位號。在國標(biāo)碼表中,共收錄了一、二級漢字和圖形符號7445個。其中圖形符號682個,分布在1~15區(qū);一級漢字(常用漢字)3755個,按漢語拼音字母順序排列,分布在16~55區(qū);二級漢字(不常用漢字)3008個,按偏旁部首排列,分布在56~87區(qū);88區(qū)以后為空白區(qū),以待擴(kuò)展。區(qū)位碼可以唯一確定一個漢字或字符,反之任何一個漢字或字符都對應(yīng)唯一的區(qū)位碼。例如,漢字"啊"的區(qū)位碼是"1601",即在16區(qū)的第01位。
由于國標(biāo)GB2312-80編碼的特殊性,可通過計算偏移量的方法來定位該漢字在漢字編碼表中任意的位置。漢字在編碼表中的偏移量計算公式為:offset=(c1-0xB0)*94+(c2-0xA1)
其中:offset代表某漢字在編碼表中的位置;c1和c2代表漢字的內(nèi)部碼;c1為漢字的高位編碼;c2為漢字的低位編碼。
舉例說明這個偏移量計算公式的應(yīng)用:以漢字“啊”為例,取出“啊”的漢字編碼,分別取出相應(yīng)的高位和低位的值,并代入公式中有:
offset(啊)=(176-176)*94+(160-160)=0
顯然“啊”就是存儲在下標(biāo)地址為0的空間中。通過計算得到漢字的偏移地址后,可以很方便地到相應(yīng)地址空間去查看該漢字的相關(guān)信息,為后面的中文分詞做好準(zhǔn)備。
愛華網(wǎng)


