連載コラム
2021年01月07日

ぬらくら第117回「ユニコードと多様性」

1960年代にアラン・ケイ (* 1)は「パーソナル・コンピュータ」というアイデアを提唱しました。

そのころのコンピュータは第二世代と呼ばれるもので、トランジスタと磁気コアメモリで構成された回路基板を持ち、まだまだ大型で重く、個人で所有するなど思いもよらないものでした。

ケイがパーソナル・コンピュータを実現する機器として「ダイナブック」と名付けたものは、今でいうWi-Fiでインターネットに繋がったノートブック・パソコンそのものでした。

それから60年。
路上で、商店で、食堂で、電車やバスの中で、スマートフォンを操作している人を目にしない日はありません。

デジタル情報機器の旗頭はいつの間に、パソコンからスマートフォンに取って代わられてしまった感があります。

アラン・ケイが構想した「ダイナブック」はスマートフォンという形で現実のものになったと言っても好いのではないでしょうか。

スマートフォンは、その画面に表示される文字をユニコードで実装することによって、パソコンと文字情報をやりとりしたり、インターネット上の文字情報を文字化けなしに扱えるようになりました。

ユニコードは、ゼロックスが提唱してアップル、ヒューレット・パッカード、IBM、ジャストシステム、マイクロソフト、オラクル、SAP、サン、サイベースなどが参加して設立した非営利団体、ユニコード・コンソーシアム(The Unicode Consortium)によって策定された「符号化文字集合 (* 2) 」です。

ユニコードのホームページには『世界中の誰もが電話やコンピュータで自分の言語を使用できるようにするべきだ』と掲げられています。

ユニコードが定める標準は、世界のさまざまな言語および技術分野で書かれた文章を、世界的に交換・処理・表示できるようにと考えられたものです。
ユニコードは他にも多くの古典的・歴史的なテキストをサポートしています。

1991年にバージョン 1.0 が発表されて以来アップデートを重ね、その最新版は2020年3月に発表されたバージョン 13.0.0 です。
バージョン 13.0.0 の収録キャラクタ (* 3) 数は143,859 文字、サポートしているスクリプト (* 4) 数は 154 に及んでいます。

近年、さまざまな場面で「多様性」が叫ばれています。
ユニコードはその草創期の1987年頃、既に文字集合で多様性を実現しようと動き始めていたことになります。

最新バージョンの 13.0.0 がサポートしている 154 のスクリプトにはどんなものがあるのか、少し長くなりますが、Unicode 13.0 Character Code Charts (* 5) から抜き出してみました。

リストアップは注意深く行いましたが、もし以下のリストに間違いがあったらぜひご指摘ください。

これらのスクリプトがどんな形をしているのか、ぜひ Unicode 13.0 Character Code Charts で文字の多様性に触れてみてください。

■ ヨーロッパの文字体系 (European Scripts)
アルメニア文字 (Armenian)
カリア文字 (Carian)
カフカース・アルバニア文字 (Caucasian Albanian)
キプロス音節文字 (Cypriot Syllabary)
キリール文字 (Cyrillic)
エルバサン文字 (Elbasan)
グルジア文字 (Georgian)
グラゴル文字 (Glagolitic)
ゴート文字 (Gothic)
ギリシア文字 (Greek)
ラテン文字 (Latin)
線文字 A (Linear A)
線文字 B (Linear B)
リュキア文字 (Lycian)
リュディア文字 (Lydian)
オガム文字 (Ogham)
ロヴァーシュ文字 (Old Hungarian)
古代イタリア文字 (Old Italic)
古ペルム文字 (Old Permic)
ファイストスの円盤の文字 (Phaistos Disc)
ルーン文字 (Runic)
シェイヴィアン文字 (Shavian)

■ アフリカの文字体系 (African Scripts)
アドラム文字 (Adlam)
バムン文字 (Bamum)
バサ文字 (Bassa Vah)
コプト文字 (Coptic)
エジプト・ヒエログリフ (Egyptian Hieroglyphs)
エチオピア文字 (Ethiopic)
メデファイドリン文字 (Medefaidrin)
メンデ文字 (Mende Kikakui)
メロエ記念碑書体 (Meroitic)
ンコ文字 (N'Ko)
オスマニア文字 (Osmanya)
ティフナグ文字 (Tifinagh)
ヴァイ文字 (Vai)

■ 中東の文字体系 (Middle Eastern Scripts)
アナトリア・ヒエログリフ (Anatolian Hieroglyphs)
アラビア文字 (Arabic)
アラム文字 (Aramaic, Imperial)
アヴェスター文字 (Avestan)
ホラズム文字 (Chorasmian)
楔形文字 (Cuneiform)
エリマイス文字 (Elymaic)
ハトラ文字 (Hatran)
ヘブライ文字 (Hebrew)
マンダ文字 (Mandaic)
ナバテア文字 (Nabataean)
古代北アラビア文字 (Old North Arabian)
古代南アラビア文字 (Old South Arabian)
碑文パフラヴィー文字 (Pahlavi, Inscriptional)
聖詠パフラヴィー文字 (Pahlavi, Psalter)
パルミラ文字 (Palmyrene)
碑文パルティア文字 (Parthian, Inscriptional)
フェニキア文字 (Phoenician)
サマリア文字 (Samaritan)
シリア文字 (Syriac)
イェジディ文字 (Yezidi)

■ 中央アジアの文字体系 (Central Asian Scripts)
マニ文字 (Manichaean)
マルチェン文字 (Marchen)
モンゴル文字 (Mongolian)
古代ソグド文字 (Old Sogdian)
突厥(トッケツ)文字 (Old Turkic)
パスパ文字 (Phags-Pa)
ソグド文字 (Sogdian)
ソヨンボ文字 (Soyombo)
チベット文字 (Tibetan)
ザナバザル方形文字 (Zanabazar Square)

■ 南アジアの文字体系 (South Asian Scripts)
アーホム文字 (Ahom)
ベンガル文字とアッサム文字 (Bengali and Assamese)
バイクシュキー文字 (Bhaiksuki)
ブラーフミー文字 (Brahmi)
チャクマ文字 (Chakma)
デーヴァナーガリー文字 (Devanagari)
ディヴェ文字 (Dives Akuru)
ドグラ文字 (Dogra)
グランタ文字 (Grantha)
グジャラーティー文字 (Gujarati)
グンジャラ・ゴーンディー文字 (Gunjala Gondi)
グルムキー文字 (Gurmukhi)
カイティー文字 (Kaithi)
カンナダ文字 (Kannada)
カローシュティー文字 (Kharoshthi)
ホジャ文字 (Khojki)
フダーワーディー文字 (Khudawadi)
レプチャ文字 (Lepcha)
リンブ文字 (Limbu)
マハージャニー文字 (Mahajani)
マラヤーラム文字 (Malayalam)
マサラム・ゴーンディー文字 (Masaram Gondi)
マニプール文字 (Meetei Mayek)
モーディー文字 (Modi)
ムロ文字 (Mro)
ムルターニー文字 (Multani)
ナンディナーガリー文字 (Nandinagari)
ネワール文字 (Newa)
オル・チキ文字 (Ol Chiki)
オリヤー文字 (Oriya / Odia)
サウラーシュトラ文字 (Saurashtra)
シャーラダー文字 (Sharada)
悉曇(シッタン)文字 (Siddham)
シンハラ文字 (Sinhala)
ソラ・ソンペン文字 (Sora Sompeng)
シロティ・ナグリ文字 (Syloti Nagri)
タークリー文字 (Takri)
タミル文字 (Tamil)
テルグ文字 (Telugu)
ターナ文字 (Thaana)
ティルフータ文字 (Tirhuta)
ヴェーダ文字拡張 (Vedic Extensions)
ワンチョー文字 (Wancho)
ワラング・クシティ文字 (Warang Citi)

■ 東南アジアの文字体系 (Southeast Asian Scripts)
チャム文字 (Cham)
ロヒンギャ文字 (Hanifi Rohingya)
カヤー文字 (Kayah Li)
クメール文字 (Khmer)
ラオス文字 (Lao)
ミャンマー文字 (Myanmar)
新タイ・ロ文字 (New Tai Lue)
ニアケン・プアチェ・フモン文字 (Nyiakeng Puachue Hmong)
パハウ・フモン文字 (Pahawh Hmong)
パウ・チン・ハウ文字 (Pau Cin Hau)
タイ・ロ文字 (Tai Le)
タイ・タム文字 (Tai Tham)
タイ・ヴェト文字 (Tai Viet)
タイ文字 (Thai)

■ インドネシア・オセアニアの文字体系 (Indonesia & Oceania Scripts)
バリ文字 (Balinese)
バタク文字 (Batak)
ブギス文字 (Buginese)
ブヒッド文字 (Buhid)
ハヌノオ文字 (Hanunoo)
ジャワ文字 (Javanese) マカッサル文字 (Makasar)
レジャン文字 (Rejang)
スンダ文字 (Sundanese)
タガログ文字 (Tagalog)
タグバヌア文字 (Tagbanwa)

■ 東アジアの文字体系 (East Asian Scripts)
注音字母 (Bopomofo)
CJK 統合漢字 (CJK Unified Ideographs / Han)
CJK 互換漢字 (CJK Compatibility Ideographs)
CJK 部首補助 (CJK Radicals / Kangxi Radicals)
ハングル字母 (Hangul Jamo)
ひらがな (Hiragana)
万葉仮名 (Kana Supplement)
漢文 (Kanbun)
カタカナ (Katakana)
契丹小字 (Khitan Small Script)
リス文字 (Lisu)
ポラード文字 (Miao)
女書 (Nushu)
西夏文字 (Tangut)
イ文字 (Yi)

■ アメリカの文字体系 (American Scripts)
チェロキー文字 (Cherokee)
デザレット文字 (Deseret)
オセージ文字 (Osage)
統合カナダ先住民音節 (Unified Canadian Aboriginal Syllabics)

* 1) アラン・ケイ(Alan Kay, 1940年 - )
アメリカの計算機科学者、教育者、ジャズ演奏家。
パーソナルコンピュータの父とも言われる。1960年代当時は高価で大きく、複数人で共有して利用していたコンピュータに「個人用」という用途を想定し、それに相応しいコンピュータがどうあるべきかを考えた人。

* 2) 符号化文字集合
「ぬらくら 第18回 符号化文字集合」はこちら

* 3) キャラクタ
文字。言語に直接結び付いて意味を表す符号や記号。

* 4) スクリプト
文字体系、書記系、用字系ともいう。
同種の表記に使われるひとまとまりの文字の体系のこと。言語と文字体系は一対一に対応しない。
アラビア文字、漢字、キリル文字、デーヴァナーガリー、ラテン文字のように、複数の言語で表記に使われる文字体系は多い。
逆に一つの言語で複数の文字体系が使われている場合もあり、日本語は漢字、平仮名、片仮名の3つの文字体系が言語の表記に不可欠なものとなっている。

* 5) Unicode 13.0 Character Code Charts
https://www.unicode.org/charts/

【参考資料】
ユニコード戦記 小林龍生 著 東京電機大学出版局 2011年

文字コードの世界 安岡孝一・安岡素子 著 東京電機大学出版局 1999年

ユニコード公式サイト
https://home.unicode.org

Wikipedia
https://ja.wikipedia.org

タイトルの「ぬらくら」ですが、「ぬらりくらり」続けていこうと思いつけました。
ぬらくらは、ダイナフォント News Letter(ダイナコムウェア メールマガジン)にて連載中です。
いち早く最新コラムを読みたい方は、メールマガジン登録(Web会員登録)をお願いいたします。
メルマガ登録はこちら
 
ダイナコムウェア コンサルタント
ダイナコムウェア株式会社
コンサルタント
mk88氏

PROFILE●1942年東京都生まれ。1966年桑沢デザイン研究所ビジュアルデザイン科卒。設備機器メーカー、新聞社、広告会社を経て、総合印刷会社にてDTP黎明期の多言語処理・印刷ワークフローの構築に参加。1998年よりダイナコムウェア株式会社に勤務。Web印刷サービス・デジタルドキュメント管理ツール・電子書籍用フォント開発・フォントライセンスの営業・中国文字コード規格GB18030の国内普及窓口等を歴任。現在はコンサルタントとして辣腕を振るう。
Blog:mk88の独り言

月刊連載ぬらくらバックナンバー
連載にあたっておよび記事一覧
ぬらくら第105回はこちら
ぬらくら第106回はこちら
ぬらくら第107回はこちら
ぬらくら第108回はこちら
ぬらくら第109回はこちら
ぬらくら第110回はこちら
ぬらくら第111回はこちら
ぬらくら第112回はこちら
ぬらくら第113回はこちら
ぬらくら第114回はこちら
ぬらくら第115回はこちら
ぬらくら第116回はこちら

前 : ぬらくら第116回「保険契約のトラブル」