連載コラム
2019年01月31日

ぬらくら第94回 「文字集合という呪縛」

文字集合という縛りがある。

あっちのコンピュータで作った文書を、こっちのコンピュータでも正しく読むことができるようにと、相互で利用できる文字の集まりを事前に決めた約束事のことだ。

この約束事があるお陰でパソコンやスマート・フォンでメッセージやメールが読めるのだということを知る人は、その業界の人間くらいだろう。

この約束事から外れた文字は表示されず、その部分が空白になったり、場合によっては下駄の歯のような二本の太い線が表示されたりする。近頃、こんな現象を目にすることはなくなったが、これを外字といって、この現象に白い眼を向ける向きもいるようだ。

文字集合を正しくは、符号化文字集合 (* 1) といい、コンピュータの世界で「どのような文字や記号を扱うのか」ということを定義したもので、文字や記号類を重複することのないように、事前に決めた文字の集まりのことだ。

日本工業規格 (JIS) によってその内容が規定されている。
最新の文字集合規格はJIS X 0213:2012で、ここには11,233の文字と記号類が規定されている。
JIS X 0213に含まれている文字や記号類を分類してその数を数えてみると、

漢字:10,050文字
平仮名:91文字
片仮名:115文字
その他(アルファベット、アラビア数字、記号類など):977文字

となる。

それぞれの割合を見ると、

漢字:89.5パーセント
平仮名:0.8パーセント
カタカナ:1.0パーセント
その他:8.7パーセント

になる。

データが少し古いが、1982年に国立国語研究所から「各種文章の字種比率(佐竹秀雄)」という研究結果が発表されている。この中で、日常目にする一般的な文書に含まれる漢字とそれ以外の文字の平均比率(出現頻度率)が報告されている。

それによると、

漢字が:26.5パーセント
平仮名:57.3パーセント
片仮名:7パーセント
その他(アルファベット、アラビア数字、記号類など):9.2パーセント

となっている。

日常の平均的な文書には漢字が26.5パーセントしか含まれていないのに、最新の文字集合規格の89.5パーセントが漢字で、57.3パーセントも占めている平仮名は文字集合規格では0.8パーセントしか占めていないと言うことになる。

新しいフォントを開発するときに、日常の文書中に含まれる26.5パーセントの漢字に対応するために10,050文字も漢字を作らなければならない。

10,050文字作れば日本語のどのような文書もコンピュータで扱うことができるかというと、決してそのようなことはなく、この数でも表示されない文字は数多くある。諸橋轍次の大漢和辞典(大修館書店)に至っては親字だけでも五万文字を超えている。

漢字や仮名を含んだ最初の文字集合規格は1978年に制定されたJIS C 6226で、このときは漢字、平仮名、片仮名、その他を含めて6,802文字を収録するのみだった。

以来、文字集合規格に含まれる文字数は、急速に増え続け、冒頭でも触れた最新のJIS X 0218では11,233文字を収録するまでになっている。

文字集合規格にはJIS以外に、パソコンの世界で業界標準になりつつあるAdobe Japan1 (* 2) という規格がある。この文字集合規格では最大23,058文字が収録されており出版・印刷業界で広く利用されている。

コンピュータで日本語を表示・印刷するための文字集合は、常に自らを縛っている収録文字数の呪縛から逃れようとしている気がする。

* 1) 文字集合規格
ぬらくら第18回「符号化文字集合」を参照。
ぬらくら第18回「符号化文字集合」はこちら

* 2) Adobe Japan1
ぬらくら 第37回「Adobe-Japan1」を参照。
ぬらくら 第37回「Adobe-Japan1」はこちら

【ぬらくら 第92回「鬼を笑わせる」 2018年10月25日の補足】
第92回「鬼を笑わせる」で、
--
アドビ社はAdobe Japan1-6の補足(Supplement)として新元号のCIDを検討しているようで、
以下のCIDコードポイントが準備されるようです。
 新元号:23058(横書き用)
 新元号:23059(縦書き用)
--
と書いたが、その後アドビ社は2018年12月6日の文字情報技術促進協議会主催のセミナーで、この二つの合字を追加した文字コレクションをAdopbe-Japan1-7とすると発表している。また、フォント名にAdobe-Japan1-7を明示せず、フォント内部のROS (*) 情報をAdobe-Japan1-7とする、としている。
* ROS:CIDSystemInfo辞書のRegistry、Ordering、Supplementの略語

ぬらくら 第92回「鬼を笑わせる」はこちら
タイトルの「ぬらくら」ですが、「ぬらりくらり」続けていこうと思いつけました。
ぬらくらは、ダイナフォント News Letter(ダイナコムウェア メールマガジン)にて連載中です。
いち早く最新コラムを読みたい方は、メールマガジン登録(Web会員登録)をお願いいたします。
メルマガ登録はこちら
 
ダイナコムウェア コンサルタント
ダイナコムウェア株式会社
コンサルタント
mk88氏

PROFILE●1942年東京都生まれ。1966年桑沢デザイン研究所ビジュアルデザイン科卒。設備機器メーカー、新聞社、広告会社を経て、総合印刷会社にてDTP黎明期の多言語処理・印刷ワークフローの構築に参加。1998年よりダイナコムウェア株式会社に勤務。Web印刷サービス・デジタルドキュメント管理ツール・電子書籍用フォント開発・フォントライセンスの営業・中国文字コード規格GB18030の国内普及窓口等を歴任。現在はコンサルタントとして辣腕を振るう。
Blog:mk88の独り言

月刊連載ぬらくらバックナンバー
連載にあたっておよび記事一覧
ぬらくら第83回はこちら
ぬらくら第84回はこちら
ぬらくら第85回はこちら
ぬらくら第86回はこちら
ぬらくら第87回はこちら
ぬらくら第88回はこちら
ぬらくら第89回はこちら
ぬらくら第90回はこちら

ぬらくら第91回はこちら
ぬらくら第92回はこちら
ぬらくら第93回はこちら

前 : ぬらくら第99回 「束の間のバリ島」