[play-eKanji]

on "matche"

matche とは "MATCH (Exactly)" の略です。 (勝手に略すなってば、というカンジですが)
「大漢和」の 43614 番目 ((m43614)) と 「康煕」の 38219 番目 ((k38219)) と Unicode の文字コード 9857 ((u9857)) は同じ文字、もっと具体的な言い方をしますと、 フォントの内容が完全に同じデータです。 こういうやつはチョロっとプログラムを書いてやりますと 簡単に対応するフォントが探せてしまいます。 そこで そういう文字の組を探して、 文字を表示する際に添えてみました。

このやり方には、当然問題もあります。

「大漢和」の「一」 ((m1)) と「康煕」の「一」 ((k1)) と Unicode の「一」 ((u4e00)) はフォントパターンが完全に同一なのでよいのですが、 これらと S-JIS (もっと正確には、配布ファイルのうち jisx9052.d24 に 収録されているデータ)の「一」 ((一)) のフォントパターンが微妙に違っているのです (-_-) そのため、単純なパターンマッチではフォントの対応が取れないのです。

この問題を克服するためには、文字認識で使うような 「文字の各ポイントの距離をはかって云々」とかいう手法を使えば よいとは思いますが、計算量が爆発的に膨大になってしまうため、 できれば避けたいところです。何かよい方法はないものでしょうかね。

. . . ということで悩んでいたのですが、ある日唐突に [Unicode Consortium] のページに [Shift-JIS//Unicode の文字コードの対応表]があったなあ、ということを 思い出しました。そこで早速この表をもとにして Shift-JIS//Unicode の 対応をとり、 Matche 一覧に反映させてみました。 これで上の「一」の問題はバッチリ解決 (^_^)v
しかし。上にあげたような問題は完全には解決したわけではありません。 たとえば Unicode の「授」 ((u6388)) と Morohashi の「授」 ((m12242))。 これらは ほとんど同じように見えるのですが、上の「一」より、 さらに微妙に違っているのです (-_-;

なお、この play-eKanji で利用している「同じフォントの一覧」は [これ (plain text/gzipped/code:Shift-JIS)]です。


Go : [ eKanji project Home page ] [ play-eKanji Main ]
TA