用JAVA轉(zhuǎn)換簡(jiǎn)繁體的基礎(chǔ)知識(shí) (不用對(duì)比表,用算法完成)
發(fā)表時(shí)間:2023-08-21 來源:明輝站整理相關(guān)軟件相關(guān)文章人氣:
[摘要]漢字編碼標(biāo)準(zhǔn)與識(shí)別(一)代碼頁(Code Page)初識(shí)本節(jié)是根據(jù)以下文章編寫出來的,建議認(rèn)真研讀這些專家的高論。參考1 <> 張 軸 材 <<計(jì)算機(jī)世界>>周報(bào)...
漢字編碼標(biāo)準(zhǔn)與識(shí)別(一)
代碼頁(Code Page)初識(shí)
本節(jié)是根據(jù)以下文章編寫出來的,建議認(rèn)真研讀這些專家的高論。
參考1 <> 張 軸 材
<<計(jì)算機(jī)世界>>周報(bào) 97-1-17
參考2 <<張軸材 談漢字交換碼標(biāo)準(zhǔn)建立歷程>> <<計(jì)算機(jī)世界>>周
報(bào)記者 黃偉敏 肖春江 99-8-30
參考3 <<中文平臺(tái)把住“根”留住>> 吳健 <<中國計(jì)算機(jī)報(bào)>>
出版日期:1998-12-21 總期號(hào):348 本年期號(hào):51
參考4 <<為種種UNIX中文平臺(tái)號(hào)脈>> 孫玉芳 <<中國計(jì)算機(jī)用戶>>
出版日期:1998-07-06 總期號(hào):323 本年期號(hào):26
參考5 CJK.INF:ftp://ftp.ora.com/pub/examples/nutshell/ujip/
doc/cjk.inf
因?yàn)楸救酥皇菢I(yè)余水平,不是專家,對(duì)于參考資料中許多術(shù)語還不
理解,更沒有見過任何一種標(biāo)準(zhǔn)的正式文本,錯(cuò)誤和模糊之處再所
難免。同時(shí),因?yàn)閲矣嘘P(guān)部門對(duì)于宣傳,推廣和貫徹國家標(biāo)準(zhǔn)方
面力度不夠,致使象我這樣的初學(xué)者或初涉該領(lǐng)域的小企業(yè)因信息
資源不足而處于不利的競(jìng)爭(zhēng)地位。
ASCII制訂的時(shí)候,并沒有考慮對(duì)多語種,特別是對(duì)象中國漢字這樣
的象形文字的支持。為此后來又提出了不少解決方案,其中代碼頁
體系(ISO2022)是現(xiàn)在普遍實(shí)行的方案,而ISO10646/GB13000/Unicode
是今后發(fā)展的方向。
中國的漢字編碼標(biāo)準(zhǔn)GB2312是7bits標(biāo)準(zhǔn),具體說是雙7位字節(jié)標(biāo)準(zhǔn)。
而ASCII是單7位字節(jié)標(biāo)準(zhǔn),計(jì)算機(jī)怎么區(qū)分呢?一種是在第八位置"1",
提示計(jì)算機(jī)轉(zhuǎn)入雙字節(jié)編碼,這是最常見的一種實(shí)現(xiàn),也叫EUC
(Extended Unix Code)編碼.另一種是用特殊標(biāo)記提示計(jì)算機(jī)轉(zhuǎn)入雙
字節(jié)編碼,如HZ編碼就是用開始,用結(jié)束的塊標(biāo)識(shí)雙字節(jié)編碼區(qū).它們
都是GB2312的一種實(shí)現(xiàn).對(duì)象中國漢字這樣的象形文字體系,代碼頁
是根據(jù)各個(gè)國家,地區(qū)或行業(yè)標(biāo)準(zhǔn),按照EUC方式編碼。代碼頁向下
兼容ASCII,是一種不等長(zhǎng)編碼。會(huì)帶來代碼的復(fù)雜性,同時(shí)還會(huì)引
起因代碼頁切換而帶來的亂碼問題。
Unicode是一種多字節(jié)等長(zhǎng)編碼。ISO10646/GB13000/Unicode現(xiàn)已在
UCS2上實(shí)現(xiàn)一致,也就是已實(shí)現(xiàn)雙字節(jié)編碼標(biāo)準(zhǔn)。下面所討論的
ISO10646/GB13000/Unicode,就只是指UCS2這種情況。Unicode對(duì)
ASCII采取前面加"0"字節(jié)的策略實(shí)現(xiàn)等長(zhǎng)兼容。如"A"的ASCII碼為0x41,
Unicode碼就為0x00,0x41。
這里主要從國家標(biāo)準(zhǔn)(GB)系列入手了解Unicode。如果不是看了參考5
(英文),我還不知道國家關(guān)于漢字編碼的標(biāo)準(zhǔn)如此之多。中國人居然
要從英文資料里了解漢字編碼標(biāo)準(zhǔn),實(shí)在是很無奈的事情。
常用中文編碼標(biāo)準(zhǔn) 資料來源:CJK.INF
GB2312-1980(GB0)(簡(jiǎn)體) GB7589-1987(GB2)(簡(jiǎn)體)
GB7590-1987(GB4)(簡(jiǎn)體) GB13000-1993
GB6345.1-1986(GB0修正)
GB8565.2-1988(GB8,GB0擴(kuò)充)
GB/T12345-90(GB1)(繁體) GB/T13131-9X(GB3)(繁體)
GB/T13132-9X(GB5)(繁體)
其中橫向表示字符集系列?v向表示各個(gè)系列的發(fā)展標(biāo)準(zhǔn)。其中
GB2312是基本集,也就是目前最常用的標(biāo)準(zhǔn)。GB7589/GB7590是擴(kuò)展
集,使用時(shí)可能不能和GB2312共存,需要切換使用。GB7589/GB7590
是按部件(部首)和筆順(筆畫)排列,但具體有什么字,怎么排列,
用在什么領(lǐng)域,不清楚。GB2312系列經(jīng)過兩次修正和擴(kuò)充,已和原
始的GB2312-1980標(biāo)準(zhǔn)有些不同(參考5)。因?yàn)闆]有標(biāo)準(zhǔn)文本,不知
道正在使用的字體是屬于哪個(gè)標(biāo)準(zhǔn)。根據(jù)最新的Unicode3.0,國家
標(biāo)準(zhǔn)最新的是GB16500-95 ,更不知是哪個(gè)系列的了。ISO/IEC 10646
等同于GB13000-1993/JIS0221-1995/KSC5000-1995這些國家標(biāo)準(zhǔn)。
制訂的目標(biāo)是包容各語種的文字,其中以漢字最多(Unicode2.0有
20902個(gè)漢字)。關(guān)于標(biāo)準(zhǔn)的特點(diǎn)可以看參考1,制訂過程中的風(fēng)風(fēng)
雨雨,可以看參考2?傊@是一個(gè)我們國家參與并占主導(dǎo)地位
的國際標(biāo)準(zhǔn)。
GBK是GB2312向GB13000過渡的一個(gè)中間產(chǎn)物。它是GB2312的一次大
的擴(kuò)展,編碼向下兼容GB2312的EUC編碼,字匯(字符集)和GB13000
相同,是GB2312的3倍。所以說GBK也包含BIG5,Shift-JIS,KSC的
字匯。注意只是包含字匯,而編碼與原始的標(biāo)準(zhǔn)是不同的。在具體
應(yīng)用中,用GBK字體就可以同時(shí)顯示GB2312,BIG5,Shift-JIS,KSC
的字符串。但除了GB2312字符串,其它都要轉(zhuǎn)換(convert)。
因?yàn)檎Z焉不詳,不清楚制訂GBK時(shí)是誰占主導(dǎo)地位。因?yàn)橛行┯⑽馁Y
料說是Microsoft制訂了GBK,而國家方面也沒有進(jìn)行說明。目前從
這些參考資料只知道,94年ISO/IEC 10646發(fā)布后,Microsoft開發(fā)
Windows95中文版,要制訂中文擴(kuò)展編碼。96年《漢字?jǐn)U展內(nèi)碼規(guī)范》
GBK發(fā)布(參考1~3)。按標(biāo)準(zhǔn)發(fā)布比制定晚一年推算,這是95年的事。
Windows95及后續(xù)版本中文版支持GBK。
GB2312的EUC編碼范圍是第一字節(jié)0xA1~0xFE(實(shí)際只用到0xF7),第
二字節(jié)0xA1~0xFE。GBK對(duì)此進(jìn)行擴(kuò)展。第一字節(jié)為0x81~0xFE,第二
字節(jié)分兩部分,一是0x40~0x7E,二是0x80~0xFE。其中和GB2312相
同的區(qū)域,字完全相同。擴(kuò)展部分大概是按部件(部首)和筆順(筆畫)
從GB13000中取出再排列入GBK中。因此GBK并不是GB13000,雖然兩者
字匯相同,但編碼體系不同。一個(gè)是ISO2022系列不等長(zhǎng)編碼,一個(gè)
是等長(zhǎng)編碼,并且編碼區(qū)域也不同。注意到GBK實(shí)際上不是國家標(biāo)準(zhǔn)。
在此之前有一個(gè)GB2312基本集,在它之上是一個(gè)技術(shù)更先進(jìn)的GB13000。
GBK只是一種過渡和擴(kuò)展規(guī)范。所以在Unicode里有GB2312->Unicode,
GB12345->Unicode的轉(zhuǎn)換表格,而沒有GBK->Unicode轉(zhuǎn)換表格。只有
Microsoft制作的Code Page 936(CP936.TXT)可以算作GBK->Unicode
轉(zhuǎn)換表格。但要注意這是一個(gè)商業(yè)公司制作的文件,而不是國家或
國際標(biāo)準(zhǔn)組織制作的,有可能與標(biāo)準(zhǔn)有不一致的地方。最近在方正字
體網(wǎng)站發(fā)現(xiàn)一些有用的標(biāo)準(zhǔn)文件,有興趣可以下載看看.但要注意
Gbk-big5.tab和Gb-big5.tab這兩個(gè)文件有點(diǎn)瑕疵.
http://www.founderpku.com/fontweb/download/Gbk-big5.tab
http://www.founderpku.com/fontweb/download/Gb-big5.tab
http://www.founderpku.com/fontweb/gb2312.htm
http://www.founderpku.com/fontweb/gbk.htm
在使用這些轉(zhuǎn)換表制作其它標(biāo)準(zhǔn)的相互轉(zhuǎn)換表,會(huì)和傳統(tǒng)的轉(zhuǎn)換表
有所不同。如用GBK<=>Unicode<=>BIG5制作GBK<=>BIG5轉(zhuǎn)換表,就
會(huì)和傳統(tǒng)的GB<=>BIG5轉(zhuǎn)換表有所不同。主要是漢字有簡(jiǎn)體和繁體。
前者是GBK(中的繁體字)<=>BIG5(繁體字),后者是GB(簡(jiǎn)體)<=>BIG5(繁體)。
還有就是對(duì)一些制表符選用不同。對(duì)漢字繁簡(jiǎn)轉(zhuǎn)換有興趣的讀者,可以看
http://www.basistech.com/articles/c2c.html
http://www.cjk.org
內(nèi)碼與字體的關(guān)系
雖然沒有標(biāo)準(zhǔn)文本,但還是可以大致了解常用標(biāo)準(zhǔn)有那些字。TLC4.0的
字庫帶有GB2312,GB12345,BIG5,GBK標(biāo)準(zhǔn)的pcf字體。可以用xfd實(shí)用
程序查看。在http://www.debian.org/chinese下有一個(gè)16點(diǎn)陣的Unicode
的pcf字體。如果安裝了FreeType,可以使用xmbdfed軟件查看TTF字體。
如果用MS WORD,可能會(huì)更簡(jiǎn)單些。
在日常使用中,我們實(shí)際上熟悉的是字碼(內(nèi)碼).在中文WIN9X下,我們輸
入一個(gè)雙八位字節(jié),就得到一個(gè)漢字,就會(huì)認(rèn)為這雙八位字節(jié)就是對(duì)應(yīng)這
樣的字形.這是錯(cuò)誤的.其實(shí)內(nèi)碼對(duì)于字庫來說,只是查找字形的索引.如
果換另一個(gè)編碼標(biāo)準(zhǔn)的字體,同一個(gè)字符串就會(huì)呈現(xiàn)不同的字形,也就
是亂碼。我見過GB2312,BIG5和ISO10646/GB13000的TTF字庫.對(duì)于操作系
統(tǒng)和應(yīng)用程序來說,最喜歡的自然是ISO10646/GB13000的TTF字庫了.因?yàn)?br>這時(shí)只需提供一套代碼和一套字庫,修改外部配置文件,就可以用在不同的
語種環(huán)境.這就是國際化和本地化.其中有個(gè)技巧就是ISO10646/GB13000的
TTF字庫可以在使用時(shí)可以通過重映射變成其它標(biāo)準(zhǔn)的字庫.這時(shí)需要的是
GBK->Unicode,Big5->Unicode這些轉(zhuǎn)換表.一個(gè)系統(tǒng)要升級(jí)支持Unicode3.0,
也難也不難.簡(jiǎn)單的地方是只需修改轉(zhuǎn)換表就行了(如windows
ls*.*).
難的是要升級(jí)字庫.開發(fā)字庫是很困難的,可以到方正字庫網(wǎng)站看看開發(fā)字
庫的步驟.WIN9X使用的是北京中易公司的TTF字庫,MS是不可能開發(fā)一套中
文字庫的.我所見過的ISO10646/GB13000的TTF字庫,最新的是99年版,Unicode2.1
,
方正字庫.要想見到Unicode3.0的所有字形,也只有等這些專業(yè)字庫開發(fā)商
做出來才行.如果現(xiàn)在就想看,只有問張軸材了.因?yàn)槊客ㄟ^一次新標(biāo)準(zhǔn),中
國方面就要提供所有漢字的48x48高精密字形.使用TTF字體始終是誘人的話
題。但現(xiàn)在了解不多,只能簡(jiǎn)單談?wù)剰腡TF字體生成bdf/pcf字體的問題。
因?yàn)楝F(xiàn)在中文pcf字體很少,只有宋體,仿宋,黑體,楷體四種。要想有更
多的字體,有個(gè)取巧的方法就是使用freetype庫。用ttftobdf程序生成bdf
字體,再用bdftopcf程序生成pcf字體。但這種方法生成的字體縮放后比較
難看,而且不宜控制。這可能是ttf->bdf的轉(zhuǎn)換過程丟失了信息,高寬比
也和標(biāo)準(zhǔn)的不一樣。機(jī)器生成的東西就是機(jī)械,是不能和手繪的字體相比
的。同時(shí),因?yàn)門TF技術(shù)已成熟,所以也沒有必要繼續(xù)開發(fā)更多的pcf字體。
X window將接受和大量使用TTF字體。而pcf字體今后主要用在標(biāo)準(zhǔn)字型
(如宋體),小點(diǎn)陣,網(wǎng)上快速下載傳輸方面。只有實(shí)際在X Window下用
過Unicode和TTF的字體,才會(huì)體會(huì)到使用Unicode和TTF,既是一種能力,
也是一種負(fù)擔(dān)。因?yàn)椴徽撌鞘裁锤袷降淖煮w文件,最后在使用時(shí)都轉(zhuǎn)化為
內(nèi)存里固定點(diǎn)陣字體。如果是16x16點(diǎn)陣,一個(gè)漢字就用32字節(jié)。Unicode3.0
有27786個(gè)漢字,至少需要868kb的內(nèi)存。如果要中文英文美觀一致,還得裝
載大量的中文字體,所需內(nèi)存可想而知。如果再使用TTF,還需要另一塊內(nèi)
存來運(yùn)算和存儲(chǔ)。因此,就算X Window提供了字體cache和deferglyphs,
還是于事無補(bǔ)。而我們常用的漢字其實(shí)很少。根據(jù)統(tǒng)計(jì),常用漢字的頻率,
前165個(gè)漢字頻率和>50%,前1000個(gè)漢字頻率和>95%;按小學(xué)教學(xué)經(jīng)驗(yàn),識(shí)
字900個(gè)左右,基本可以讀書,看報(bào),寫作文;按小學(xué)教學(xué)大綱,小學(xué)畢業(yè)
識(shí)字2500字;GB2312的一級(jí)字庫的頻率和已>99%。我想我自己識(shí)字大約為
4000~5000,對(duì)比Unicode的漢字,好象一個(gè)文盲:-)。因此是用GB2312,還
是用GB13000,真是一個(gè)兩難決擇,我們也要為我們的選擇付出代價(jià)。
最后通過內(nèi)碼與字體的關(guān)系,討論UTF8的作用。
UTF8是現(xiàn)有ASCII系統(tǒng)轉(zhuǎn)向Unicode系統(tǒng)的一個(gè)過渡解決方案。UTF8是保證
ASCII兼容性,再向大字符集方向擴(kuò)展。這是Unicode推薦的方案。但是因
為解決問題的角度不同,對(duì)現(xiàn)有的中文系統(tǒng)不是好的解決方案。
CJK字符編碼標(biāo)準(zhǔn)目前都為一字/兩字節(jié)。中文在UCS2中的編碼范圍是
U+4E00~U+9FFFF。按照UTF8的編碼規(guī)則,為一字/三字節(jié),增加1/3的空間。
同時(shí)和現(xiàn)有的CJK系統(tǒng)不兼容。CJK系統(tǒng)要使用UTF8,先轉(zhuǎn)換為UCS2,再轉(zhuǎn)換
為UTF8。后一步簡(jiǎn)直是多此一舉。因?yàn)閺淖謳斓慕嵌瓤,字的編碼只是字形
在字庫中的索引。UTF8是變長(zhǎng)碼,不能直接做索引,需要轉(zhuǎn)換為UCS2才能使
用字庫。
隨著GUI的發(fā)展,字庫逐漸轉(zhuǎn)向TTF。TTF字庫的編碼標(biāo)準(zhǔn),有GB2312/GB2312
的EUC標(biāo)準(zhǔn);BIG5標(biāo)準(zhǔn);ISO10646標(biāo)準(zhǔn)。沒有見過UTF8的TTF,也不知道CJK
這些國家有哪些系統(tǒng)使用了UTF8編碼。
目前Unicodde有一個(gè)特點(diǎn)就是內(nèi)核代碼(CoreCode)。用戶表面上可以繼續(xù)使
用原有的編碼標(biāo)準(zhǔn),系統(tǒng)內(nèi)部使用UCS2進(jìn)行運(yùn)算和操作。系統(tǒng)使用用戶可改
變的標(biāo)志或模塊,以識(shí)別用戶需要的編碼標(biāo)準(zhǔn),然后進(jìn)行轉(zhuǎn)換。這樣,系統(tǒng)
只需提供一套ISO10646的TTF,不修改內(nèi)部代碼,就可以為多個(gè)用戶同時(shí)提供
中文,日文,韓文的支持。Windows95及后面的中文版就是采用這個(gè)方案,F(xiàn)
有的X window的TTF服務(wù)器,X-TT和xfsft也可以使用這個(gè)方案。
前者在TurboLinux中文版里得到了實(shí)現(xiàn),后者我試驗(yàn)過,效果還不錯(cuò)。還有
一個(gè)有趣的現(xiàn)象,就是紅旗Linux1.1版所帶的那個(gè)12點(diǎn)陣的pcf字體
/usr/X11R6/lib/X11/fonts/misc/gb12st.pcf.gz。這已不是嚴(yán)格意義上的
GB2312編碼的字庫了。用xfd實(shí)用程序查看,好象是從Unicode編碼的TTF字體
轉(zhuǎn)換來的,有些GBK的字,可惜太少。如果他們能出些GBK編碼標(biāo)準(zhǔn)的pcf字體
就好了。
CJK系統(tǒng)轉(zhuǎn)向UCS2與ASCII系統(tǒng)轉(zhuǎn)向UTF8,兩者的代碼修改量是相當(dāng)?shù)。只是?br>
者多了轉(zhuǎn)換表,需要內(nèi)存多些。不過ASCII系統(tǒng)使用UCS2,需要增加50%的空間。
目前計(jì)算機(jī)里大多數(shù)還是ASCII的信息,看來這也是一個(gè)問題。