Open Source WEB

The Unicode Character Code Charts By Script

unicode.org には、ユニコードの全文字について詳しい情報が存在します。 全文字について、PDFで文字の形が示されていて、これはとっても役立ちます。

http://www.unicode.org/charts/

ユニコードでは、それぞれの言語毎に文字がまとめられてコードが割りふられています。 日本語の場合は、East Asian Scripts のグループに入ります。

Unified CJK Ideographs (4E00-9FBF)

日本だけではなく、中国、台湾の漢字もいっしょに、ごちゃまぜに Unify されています。 このUnifyされているというのが、ユニコードの特長です。 非常に良く似ている、多くの場合起原が同じだったりするのだが、 微妙に異なる文字を同じ文字とみなすかどうかは非常に面倒な問題で、 私も良く分らない渾沌とした世界なので、ここでは追及しません。

そんなことより、漢字の並んだ表の部分を見ておきましょう。 「龍」が3つ集まった文字がちゃんと入っています。 大漢和辞典には、龍が4つ集まった文字もあるようですが、 ユニコードは文字数制限がそれなりにきびしいこともあり、入っていません。

Fullwidth Latin Letters (FF00-FFEF)

半角と全角の様々な文字が入っています。

FF3C FULLWIDTH REVERSE SOLIDUS = <wide>005c \

となっていて、\(5c)の全角になったものと説明されています。

FF5E FULLWIDTH TILDE = <wide>007E ~

全角の波形が、7E の全角になったものと説明されています。 波形は、山-谷 の順番になっています。 山-谷 の順番は非常に重要で、実はこの逆の 谷-山 の文字も存在し、 混乱を起こさせています。


ユニコード記号表

Code Charts for Symbols and Punctuation

http://www.unicode.org/charts/symbols.html

General Punctuation (2000-206F)

とても沢山のスペースが存在します。幅が0のスペースだって存在し、 全部で12種類のスペースがあります。理解できますか?

ここにも波形があるので、注意しましょう。

Mathematical Operators (2200-22FF)

223C TILDE OPERATOR
223D REVERSED TILDE

となっていて、どちらも波形ですが、 223Cは 山-谷 ですが、223Dは 谷-山 の形になっており、逆になっています。 それにしても、全然分らない数学記号(?)がいっぱいある。


表の見方はだいたい分ったでしょうか。いちいち説明しませんが、 この見方に慣れるのが、ユニコード通になるための第一歩です。 漢字の部分を除いて、その他の日本語に関する部分の表だけを印刷して 持っておくととても便利です。

フィードバック:

Name:
Comment:

There is no comment.

このサイトは、 IPA の「平成15年度オープンソフトウエア活用基盤整備事業」 の委託事業として開発されたKahuaで試験的に運用しております。

Copyright (c) 2004-2007 株式会社タイムインターメディア About Us