ぬらくら 第18回 符号化文字集合
パソコンでメールをやりとりしたりブログやホームページを見たりするときに、どのメーカーのパソコンであっても送り手が用意した文字と同じ文字を表示してくれます。この仕組みを実現している要素の一つが「文字規格(文字コード)」と言われるものです。
一口に文字規格といっても「符号化文字集合(Coded Character Set/CCS)」を指していることもあり「文字符号化方式(Character Encoding Scheme/CES)」のことを言っている場合もあって、どちらを指しているのかは話し手にとっても曖昧なことが多いようです。
符号化文字集合というのは、コンピュータ上で「どのような文字や記号を扱うのか」ということを定義したものです。文字や記号類を重複することのないように、事前に決めた文字の集まりのことで単に「文字集合」あるいは「文字セット/キャラクターセット」などと呼ぶこともあります。
文字集合に含まれる一つ一つの文字や記号をコンピューターで利用できるようにするためには、それぞれに固有の符合(文字コード)をつけなければなりません。
これを符号化すると言い、その方法を文字符号化方式と言います。
「文字符号化方式」については次号で触れるとして、ここでは「符号化文字集合」について見ていきましょう。
符号化文字集合には国や地域・言語、用途、コンピュータの種類などによって様々なものがあります。以下にその一例を挙げてみました(出典:ウィキペディア)。
●国別の文字規格
1.ASCII(アメリカ)
2.JIS X 0213:2004(日本)
3.GB 18030-2005(中華人民共和国)
4.KS X 1001(韓国)
5.CNS 11643(台湾)
6.VISCII(ベトナム)
●多言語対応文字規格
1.Unicod(ユニコード・コンソーシアム)
2.Tron Code(T-Engineフォーラム)
●印刷業用文字規格
1.Adobe-Japan1-6(Adobe Systemsによる日本向け規格)
2.Adobe-GB1-5(Adobe Systemsによる中華人民共和国向け規格)
3.Adobe-CNS1-6(Adobe Systemsによる台湾向け規格)
4.Adobe-Korea1-2(Adobe Systemsによる韓国向け規格)
5.SK Code(写研の文字規格)
6.PMT Code(印刷機械貿易/現・ハイデルベルグジャパン社の文字規格)
7.U-PRESS(共同通信社の新聞印刷用文字規格)
●汎用大型コンピューター用文字規格
1.IBM(IBM)
2.JEF(富士通)
3.JIPS(NEC)
4.KEIS(日立)
5.JSII(三菱電機)
6.LETS(日本ユニシス)
●その他の文字規格
1.戸籍統一文字(法務省)
2.ARIB(デジタルTV放送用文字規格)
日本語を扱うパソコンはJIS(日本工業規格)で定められた文字集合を採用しています。この文字集合も時代の変遷と共に次のように制定/改正されてきました。
◆ ASCII
JIS規格ではありませんが文字規格について語るときには外すことができない規格です。
American Standard Code for Information Interchange (アメリカ情報交換用符合規格)の頭文字をとった名称です。
7ビット(* 1)で定義された128の数値(コード/符合)それぞれに、アルファベットの大文字・小文字、数字、記号類、それに表示されることのない制御コードを割り当てた文字集合です。
数字、アルファベットの大文字・小文字と記号類が94文字、残りの34がスペースと削除を含む制御コードになります。
1963年にASA(American Standards Association 米国規格協会)、後のANSI(American National Standards Institute 米国標準協会)によって制定されました。
◆ JIS C 6220 (JIS X 0201)
JIS C 6220-1969 情報交換用符号/1969年制定
JIS C 6220-1976 情報交換用符号/1976年改正
* 1987年、JISに情報部門(X部門)が新設され規格番号が変更される。
JIS C 6220-1976 → JIS X 0201-1976
JIS X 0201-1976 7ビット及び8ビットの情報交換用符号化文字集合
JIS X 0201:1997 7ビット及び8ビットの情報交換用符号化文字集合/1997年改正
JIS C 6220-1969は日本で最初に制定された文字集合規格です。
7ビットのASCIIを8ビットに拡張した規格で、拡張された8ビット目以降の128文字分の領域にカタカナと句点(。)読点(、)などわずかな記号類が追加されています。
ただし、ASCII領域のバックスラッシュ( \ )が円記号(¥)に、チルダ( ~ )がオーバーライン(  ̄ )に置き換えられています。
私たちが日常使用するひらがな、カタカナ、漢字は一切収録されていません。
Alphabet、Numerical digit、Katakana の頭文字をとってANKコードと呼ぶこともあります。
また、この規格に収録されている文字を半角文字(* 2)と呼ぶことがあるようです。
JIS C 6220-1969からJIS X 0201:1997まで、それぞれに収録されている文字集合に変更はありません。
◆JIS C 6226 (JIS X 0208)
JIS C 6226-1978 情報交換用漢字符号系/1978年制定
JIS C 6226-1983 情報交換用漢字符号系/1983年改正
* 1987年、JISに情報部門(X部門)が新設され規格番号が変更される。
JIS C 6226-1983 → JIS X 0208-1983
7ビット及び8ビットの2バイト情報交換用符号化漢字集合
JIS X 0208-1990 7ビット及び8ビットの2バイト情報交換用符号化漢字集合/1990年改正
JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合/1997年改正
JIS C 6226-1978は日本で初めて制定された日本語の文字集合規格です。
使用頻度の高い漢字を集めた第一水準と使用頻度の低い漢字を集めた第二水準の漢字のほかに、ひらがな・カタカナ・アルファベット・数字・記号類など非漢字と呼ばれる文字を含む6,802文字が規定されています。
旧JISあるいは78JIS、JIS78などと呼ばれることもあります。
JIS C 6226-1983はJIS C 6226-1978に対して例示字体の変更や記号・罫線類の追加、第一水準と第二水準の間で例示字体を入れ替えるなど大幅な改正が行われています。
非漢字71文字、第二水準の漢字4文字を追加した6,877文字が規定されています。
新JISあるいは83JIS、JIS83などと呼ばれることもあります。
JIS X 0208-1983はJIS C 6226-1983の規格番号と標題の変更のみで収録文字数に変更はありません。
JIS X 0208-1990はJIS X 0208-1983に対して225文字の例示字体が変更されています。さらに第二水準に2文字を加した6,879文字が規定されています。
JIS X 0208-1997はJIS X 0208-1990 の改訂版で、文字数や例示字体に変更は無く、JIS X 0208の最終版になっています。
◆ JIS X 0212
JIS X 0212-1990 情報交換用漢字符号-補助漢字/1990年制定
JIS X 0208が規定する漢字では不足する出版や印刷業などの用途に向けて策定された文字集合です。非漢字266文字、漢字5,801文字を規定した規格で、「JIS補助漢字」と呼ばれることもあります。しかし、パソコンでは使いにくいこともあって実際には普及するまでには至らず、殆ど利用されることはありませんでした。
現在は次に挙げるJIS X 0213の使用が推奨されています。
◆ JIS X 0213
JIS X 0213:2000 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合/2000年制定
JIS X 0213:2004 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合/2004年改正
JIS X 0213:2000はJIS X 0208:1997の6,879文字に、新たに非漢字659字、第三水準漢字1,249字、第四水準漢字2,436字を追加した11,223文字が規定されています。
2000JISと呼ばれることもあります。
JIS X 0213:2004はJIS X 0213:2000の規格書に収録されている例示字体のうち168文字の字形を変更し、新たに第三水準に10文字を追加した11,233文字が規定 されています。
JISが規定している文字集合のうち、最新の文字集合規格です。
(* 1) ビット
Bit。Binary dgit(2進数)の略。 コンピューターが処理する情報の最小単位のこと。
1ビットで0(オフ)あるいは1(オン)の二つの状態(符合/コード)のうちのどちらかを表すことができる。 7ビットでは 2^7=128(2の7乗)種類の状態(符合/コード)を表すことができる。
(* 2) 半角文字
8ビットでは2^8=256(2の8乗)となり256種類の符号を収めることができる。 8ビット目以降の領域に収録されたカタカナの形は、欧文タイプライターの文字のように全ての文字幅が同じで、正方形を縦に二分したマスに収まるように作られていたため、後にこれを半角文字と呼ぶようになった。
ぬらくらは、ダイナフォント News Letter(ダイナコムウェア メールマガジン)にて連載中です。
いち早く最新コラムを読みたい方は、メールマガジン登録(Web会員登録)をお願いいたします。
メルマガ登録はこちら
著者 Information
mk88氏
PROFILE●1942年東京都生まれ。
1966年桑沢デザイン研究所ビジュアルデザイン科卒。
設備機器メーカー、新聞社、広告会社を経て、
総合印刷会社にてDTP黎明期の多言語処理・印刷ワークフローの構築に参加。
1998年よりダイナコムウェア株式会社に勤務。
Web印刷サービス・デジタルドキュメント管理ツール・電子書籍用フォント開発・
フォントライセンスの営業・中国文字コード規格GB18030の国内普及窓口等を歴任。
現在はコンサルタントとして辣腕を振るう。
Blog:mk88の独り言