on "matche"

matche とは "MATCH (Exactly)" の略です。 (勝手に略すなってば、というカンジですが)

「大漢和」の 43614 番目 ( (m43614)

) と「康煕」の 38219 番目 ( (k38219)

) と Unicode の文字コード 9857 ( (u9857)

) は同じ文字、もっと具体的な言い方をしますと、フォントの内容が完全に同じデータです。こういうやつはチョロっとプログラムを書いてやりますと簡単に対応するフォントが探せてしまいます。そこでそういう文字の組を探して、文字を表示する際に添えてみました。

このやり方には、当然問題もあります。

「大漢和」の「一」 ( (m1) ) と「康煕」の「一」 ( (k1) ) と Unicode の「一」 ( (u4e00) ) はフォントパターンが完全に同一なのでよいのですが、これらと S-JIS (もっと正確には、配布ファイルのうち jisx9052.d24 に収録されているデータ)の「一」 ( (一) ) のフォントパターンが微妙に違っているのです (-_-) そのため、単純なパターンマッチではフォントの対応が取れないのです。

この問題を克服するためには、文字認識で使うような「文字の各ポイントの距離をはかって云々」とかいう手法を使えばよいとは思いますが、計算量が爆発的に膨大になってしまうため、できれば避けたいところです。何かよい方法はないものでしょうかね。

. . . ということで悩んでいたのですが、ある日唐突に [Unicode Consortium] のページに [Shift-JIS//Unicode の文字コードの対応表]があったなあ、ということを思い出しました。そこで早速この表をもとにして Shift-JIS//Unicode の対応をとり、 Matche 一覧に反映させてみました。これで上の「一」の問題はバッチリ解決 (^_^)v
しかし。上にあげたような問題は完全には解決したわけではありません。たとえば Unicode の「授」 ( (u6388) ) と Morohashi の「授」 ( (m12242) )。これらはほとんど同じように見えるのですが、上の「一」より、さらに微妙に違っているのです (-_-;

なお、この play-eKanji で利用している「同じフォントの一覧」は [これ (plain text/gzipped/code:Shift-JIS)]です。

Go : [ eKanji project Home page ] [ play-eKanji Main ]