Chat (Lingr.com)
Informaiton
Daily
Column
- MySQL日本語の旅(5/1)
- アクセス向上秘伝(5/9)
- 一風変ったHaskellλ門(6/13)
- SICP Answer Book (5/31) 問題3.26追加
Zope Solution
Extra
アーカイブ
OSS案内所
Site Info
関連リンク
The Unicode Character Code Charts By Script
unicode.org には、ユニコードの全文字について詳しい情報が存在します。 全文字について、PDFで文字の形が示されていて、これはとっても役立ちます。
http://www.unicode.org/charts/
ユニコードでは、それぞれの言語毎に文字がまとめられてコードが割りふられています。 日本語の場合は、East Asian Scripts のグループに入ります。
Unified CJK Ideographs (4E00-9FBF)
日本だけではなく、中国、台湾の漢字もいっしょに、ごちゃまぜに Unify されています。 このUnifyされているというのが、ユニコードの特長です。 非常に良く似ている、多くの場合起原が同じだったりするのだが、 微妙に異なる文字を同じ文字とみなすかどうかは非常に面倒な問題で、 私も良く分らない渾沌とした世界なので、ここでは追及しません。
そんなことより、漢字の並んだ表の部分を見ておきましょう。 「龍」が3つ集まった文字がちゃんと入っています。 大漢和辞典には、龍が4つ集まった文字もあるようですが、 ユニコードは文字数制限がそれなりにきびしいこともあり、入っていません。
Fullwidth Latin Letters (FF00-FFEF)
半角と全角の様々な文字が入っています。
FF3C FULLWIDTH REVERSE SOLIDUS = <wide>005c \
となっていて、\(5c)の全角になったものと説明されています。
FF5E FULLWIDTH TILDE = <wide>007E ~
全角の波形が、7E の全角になったものと説明されています。 波形は、山-谷 の順番になっています。 山-谷 の順番は非常に重要で、実はこの逆の 谷-山 の文字も存在し、 混乱を起こさせています。
ユニコード記号表
Code Charts for Symbols and Punctuation
http://www.unicode.org/charts/symbols.html
General Punctuation (2000-206F)
とても沢山のスペースが存在します。幅が0のスペースだって存在し、 全部で12種類のスペースがあります。理解できますか?
ここにも波形があるので、注意しましょう。
Mathematical Operators (2200-22FF)
223C TILDE OPERATOR 223D REVERSED TILDE
となっていて、どちらも波形ですが、 223Cは 山-谷 ですが、223Dは 谷-山 の形になっており、逆になっています。 それにしても、全然分らない数学記号(?)がいっぱいある。
表の見方はだいたい分ったでしょうか。いちいち説明しませんが、 この見方に慣れるのが、ユニコード通になるための第一歩です。 漢字の部分を除いて、その他の日本語に関する部分の表だけを印刷して 持っておくととても便利です。
フィードバック:
There is no comment.