Chat (Lingr.com)
Informaiton
Daily
Column
- MySQL日本語の旅(5/1)
- アクセス向上秘伝(5/9)
- 一風変ったHaskellλ門(6/13)
- SICP Answer Book (5/31) 問題3.26追加
Zope Solution
Extra
アーカイブ
OSS案内所
Site Info
関連リンク
CJK(中日韓)の文字コードを色々調べるのに便利なデータベースが unicode.org で提供されている。
http://www.unicode.org/charts/unihan.html
このページの上の方に、以下のようなフォームが用意されている。
左の入力フィールドに、ユニコードを入力して [lookup] ボタンを押すと、 その入力コードに対応する文字の詳しい情報を表示してくれる。
右に □ UTF-8 は、ここをチェックすると、UTF-8で入力できる。 と思うかも知れないが、やってみるとそうはならないので変だな、 バグかなと思ってから、英語の説明を読んだら、そういう事ではなく、 表示に関することのようなので、ここでは無視しておく。
UTF-8で入力できないのは、実際とても不便である。
さて、[lookup]を押すと、以下のような画面が出て来る。
一番上に、 Unihan data for U+4E80 と表示されており、 ユニコードの4種類のエンコーディング (Decimal,UTF-8,UTF-16,UTF-32) が表示される。
IRG Sources の中の J-source の個所が、JIS規格のコード(区点)になっている。 ここでは、詳細は面倒なので省く。
Mappings to Major Standards の中に、Japanese の項目がある。 ここでは、JIS X 0208, JIS X 0212, JIS X 0213 の漢字であれば、 その区点コードを知ることができる。
下の方には、音訓や、意味(turtle or tortoise; cuckold)、 関連文字などがある。
さらに下の方には、Japanese Compounds として、 その漢字を含む熟語が列挙され、読みと意味も示される。
ただし、漢字や熟語の意味も全部英語で表示されるので、 ちょっと調子が狂うかも知れない。
Unihan Index
左上にある、Grid Indexをクリックすると、16x16の表が出て来る。 使い方は簡単すぎるので、とくに説明はしない。 多数の漢字、といっても日本語では使わない漢字がいっぱい 表示されるのを堪能できるであろう。
タイトルの Unihan Index for U+4E00 through U+4EFF が、 表の範囲を示している。
使い方は簡単すぎるので、とくに説明はしない。 多数の漢字、といっても日本語では使わない漢字がいっぱい 表示されるのを堪能できるであろう。
Unihan Radical-stroke (部首)
最初の文字コードがゴチャゴチャ表示されている画面の右上の Radical-stroke index (5.9-11) をクリックすると、 表示されている漢字の部首情報が出て来る。
これ自体は面白くないので、Select another radical の部分を クリックすると、部首から調べることができる。
Strokes in radical に1から17まであり、どれかの数字をクリックすると、 その数字の画数の部首が表示される。 以下は、画数7の部首が表示されたところである。
ここで、下に並んでいる7画の部首の中から、 言を選んで [Submit]を押してみよう。 なお、言 の文字であるが、最初のストロークが、 日本語の場合は横棒なのだが、この表示では点になっていて、 ちょっと違和感がある。
表示は以下のようになるのだが、実際は延々と表示される。 漢字はすべてイメージで用意されており、言を部首とする漢字は とてもたくさんあり、それが全部表示される。
各漢字をクリックすれば、その漢字に関する文字コード情報が表示される。
これ以上詳しいことは、 Unihan Database の中に説明がある。もちろん英語だが。
フィードバック:
There is no comment.