ぬらくら 第39回 Unicode IVS/IVD
今年の冬は例年よりも寒さが厳しいと感じるのはぬらくら子だけでしょうか?
寒いときには『暑い方が好いな』と言い、暑くなると『寒い方が未だましだよ』 とのたまう、何とも勝手なものですが、そこが凡人らしくて好いですね。
前回の記事「外字の正体」の最後に「Unicode IVS/IVDは外字の救世主となるのか?」 と気を持たせるようなことを書きました。
果たして本当に「Unicode IVS/IVD」は外字(異体字)を解決してくれるのでしょうか?
今までに当「ぬらくらコーナー」で一度も触れたことがない文字集合(*1) に、 行政機関が使用する次のものがあります。
●住基ネット統一文字(*2)
パスポートの交付や年金の支給など、申請者の本人確認が必要な時に使用される文字集合です。
次の戸籍統一文字や登記統一文字との互換性はありません。漢字は19,432文字あります。
●戸籍統一文字(*3)
法務省の戸籍システムで使用される文字集合です。漢字は55,267文字あります。
●登記統一文字
戸籍統一文字に10,330文字を追加した文字集合です。
詳細は非公開のため知ることができません。
漢字は65,597文字あります。
JISとして規格化されている文字集合の中で最も収録文字数が多いJIS X 0213:2004(*4) の第一水準から第四水準までの漢字は10,038文字あります。
情報交換用の文字集合規格JIS X 0213:2004では戸籍統一文字・登記統一文字はおろか住基ネット統一文字ですら、その全てを区別して扱うことはできません。
また、Unicode(*5)も然りで、最新バージョン6.3では約10万文字を規定して多様な言語で使用される文字を収録していますが、これをもってしても日本国内で使用されるこれら統一文字の全てを区別(符号化 *6)して扱うことができません。
JISでもUnicodeでもこれらの文字を区別して扱うことができないということは、 情報システムの中でこれらの文字の情報を交換することができないと言うことになります。
このことが外字(異体字)問題の根幹に横たわっていると言っても過言ではないでしょう。 上に上げた三つの統一文字は人名・地名を扱うために用意された文字集合です。
当然のことですが、人名・地名を正しく使用することは社会生活を営む上で 非常に重要なことの一つです。
ここに、符号化されていない文字をローカルな(特定の地域に限定された)環境で 私的なユーザー定義文字(外字)として利用せざるを得ない現実があります。
長い前置きになってしまいました。
Unicode IVS/IVDの話でした。
IVSは“Ideographic Variation Sequence”の、IVDは“Ideographic Variation Database” のそれぞれアクロニム(acronym/頭字語)です。
一般に使用されているパソコンで葛飾区の「葛」と葛城市の「葛」を使い分けるには JIS X 0208:1990に対応したフォントとJIS X 0213:2004に対応したフォントを、 場面に応じて使い分ければ好いのですが、上記どちらか一つのフォントで 両方の「葛」を使い分けることはできません。
「MS Word」のようなワープロ・ソフトウエアで、フォントを切り替えて 二つの「葛」を区別しても、そのデータを書式(文字属性)のない プレーン・テキストにしてしまうとその区別は無くなってしまいます。
こうした問題を解決するために策定された仕組みがUnicode IVDです。
この仕組みはプレーン・テキスト・データに区別すべき字形 (例えば一点之繞の「辻」と二点之繞の「辻」)の情報を含めることができるようにしたものです。
これは字形のデータベースと字形を指定するシークエンスとで構成されており、 Unicode Technical Standard #37(*7)としてその仕様が定められています。
Unicode IVDは字形の集合を管理する公開された共通のデータベースで、 そこに登録されている字形を指定する仕組みを提供しています。
これは文書(文字データ)の中でデータベースに登録されている字形を指定するための仕組みです。
Unicode IVDには既に利用目的に沿って二つの文字集合が登録されており、 それぞれの集合を「コレクション」と呼んでいます。
登録されている二つのコレクションとは出版・印刷業界での利用を想定したアドビシステムズ社が登録したAdobe-Japan1(*8)と、人名・地名での利用を想定した経済産業省の委託を受けて一般社団法人日本情報処理学会が登録したHanyo-Denshi(*9)です。
Unicode IVS/IVDを利用するには、以下の全てがIVS/IVDに対応している必要があります。
1.パソコンのOS
2.日本語入力FEP(Front End Processor)
3.アプリケーション・ソフトウエア
4.フォント
上の条件を満たしている環境としてWindows 8がありますが、具体的な使い方を説明してみましょう。
以下にその手順を箇条書きします。
先ず、日本語入力FEPのMicrosoft IMEの設定を変更します。
1.ツールバーにあるIMEのロゴを右クリックして[プロパティ]を選びます。
◇「Microsoft IMEの設定」ダイアログ・ボックスが開きます。
2.「Microsoft IMEの設定」ダイアログ・ボックスで[詳細設定]ボタンをクリックします。
◇「Microsoft IMEの詳細設定」ダイアログ・ボックスが開きます。
3.「Microsoft IMEの詳細設定」
ダイアログ・ボックスで[変換]タブを選びます。
4.[変換]タブ内にある[詳細設定]ボタンをクリックします。
◇「変換」ダイアログ・ボックスが開きます。
5.「変換」ダイアログ・ボックスで「変換文字制限」リストから
「変換文字制限をしない」のラジオ・ボタンを選びます。
6.以下、順にダイアログ・ボックスの[OK]ボタンをクリックして
「Microsoft IMEの設定」ダイアログ・ボックスを閉じます。
次に「メモ帳」を起動し「書式」メニューにある「フォント(F)...」から 「MS明朝」を選択し[OK]ボタンをクリックします。
ここまでの準備ができたら、先ほど例に挙げた「辻」を入力してみましょう。
IMEの変換候補リストの初めの方に二点之繞の「辻」があると思いますので選んで確定してください。
そして、もう一度「つじ」と入力して変換候補リストを開きます。 リストをスクロールしていくと「環境依存文字」と吹き出しのような注釈がついている 一点之繞の「辻」が見つかるので選んで確定します。
如何ですか?
フォントの切り替えをせずに一点之繞と二点之繞の「辻」を打つことができたのではないでしょうか。 次に「葛飾区」と「葛城市」を入力してその違いを確認してみてください。
葛飾区の「葛」は「草(艸)かんむりに曷」、葛城市の「渇」は「艸(草)かんむりに日に匂」です。 それぞれの自治体が使用している字形で「葛」を入力することができたでしょうか?
Windows 8で表示できる外字(異体字)はJIS X 0212:2004で変更になった字形の内、 122文字のJIS90字形のみで全ての外字(異体字)に対応しているわけではありませんが、 IVS/IVDで外字(異体字)問題解決の道筋は見えたと言えるのではないでしょうか。
ダイナコムウェアの以下のフォントはJIS X 0212:2004で変更になった168文字の内、 字形差が大きい160文字のJIS90字形がIVSに対応しています。
1.平成明朝体RW3
2.平成明朝体RW5
3.平成明朝体RW7
4.平成明朝体RW9
5.平成ゴシック体RW3
6.平成ゴシック体RW5
7.平成ゴシック体RW7
8.平成ゴシック体RW9
9.平成丸ゴシック体RW4
これらのフォントを利用して利用できる外字(異体字)のリストは 以下のリンク先で確認することができます(リンク先はPDFです)。
https://www.dynacw.co.jp/Portals/3/data/change_167_character.pdf
先月号で外字問題が解決されるかのような予告をして書き始めたIVS/IVDですが、 書き終わって見て『IVS/IVDは未だやっと緒に就いたばかりなんだな』というのがぬらくら子の印象です。
(*1)文字集合 2012年3月30日号:ぬらくらコーナー「符号化文字集合」参照。記事はこちら
(*2)住基ネット統一文字(参照先はPDFです)
正式には「住民基本台住民基本台帳ネットワーク統一文字」と言います。
https://www.jstage.jst.go.jp/article/johokanri/55/11/55_826/_pdf
(*3)戸籍統一文字
https://kosekimoji.moj.go.jp/
(*4)JIS X 0213:2004
規格名は「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」と言います。
2012年3月30日号:ぬらくらコーナー「符号化文字集合」参照。
(*5)Unicode
https://www.unicode.org/
(*6)符号化 2012年4月20日号:ぬらくらコーナー「文字符号化方式」参照。
(*7)Unicode Technical Standard #37
https://www.unicode.org/reports/tr37/
(*8)Adobe-Japan1 2013年12月20日号:ぬらくらコーナー「Adobe-Japan1」参照。
(*9)Hanyo-Denshi
汎用電子情報交換環境整備プログラムによって整理された文字を 情報処理学会情報規格調査委員会SC2専門委員会によって登録されたコレクションです。
詳細は以下のサイトを参考にしてください。
【参考資料】
1.「Unicode IVS/IVD 入門」
田丸 健三郎・小林 龍生:著
日経BP社:発行
2.Hanyo-Denshiコレクション(参照先は約30MBのPDFです)
https://www.unicode.org/ivd/data/2012-03-02/IVD_Charts_Hanyo-Denshi.pdf
3.Adobe Japan コレクション(参照先は約63MBのPDFです)
https://www.unicode.org/ivd/data/2012-03-02/IVD_Charts_Adobe-Japan1.pdf
ぬらくらは、ダイナフォント News Letter(ダイナコムウェア メールマガジン)にて連載中です。
いち早く最新コラムを読みたい方は、メールマガジン登録(Web会員登録)をお願いいたします。
メルマガ登録はこちら 著者 Information
mk88氏
PROFILE●1942年東京都生まれ。
1966年桑沢デザイン研究所ビジュアルデザイン科卒。
設備機器メーカー、新聞社、広告会社を経て、
総合印刷会社にてDTP黎明期の多言語処理・印刷ワークフローの構築に参加。
1998年よりダイナコムウェア株式会社に勤務。
Web印刷サービス・デジタルドキュメント管理ツール・電子書籍用フォント開発・
フォントライセンスの営業・中国文字コード規格GB18030の国内普及窓口等を歴任。
現在はコンサルタントとして辣腕を振るう。
Blog:mk88の独り言