[This file is written in Japanese Language (Shift_JIS)] [scheme: Tib:E-Wylie, Skt:aiba]
( はじめに | 機械展開の問題点 | 展開方法 )
Mvyut. 原典では以下のようになっている記述:
688 dri ma kun ( tu ) bralこの括弧部分の展開をおこなっています。(本当は "... bral ( ba )" と、もうひとつ括弧が付いてるのですが、 ここでは話を単純にするため、この後者の括弧はここでは 無視しています) ‥と、これだけでは意味不明だと思われますので、 ちょっと簡単に説明しておきます。
蜜波羅版 Mvyut. が基づいた榊版(Sakaki's edition)における 括弧表記の用い方には一貫性がなく、 括弧部分をどのように解釈するかについては、いくつかの 可能性が考えられます。 (もともと Mvyut. は人間を対象として用意された 辞書ですから、このような括弧表記の曖昧性は本来の用途に おいてはあまり問題とならないのですが、機械にとっては 表記の曖昧性は重要な問題となります)
しかも「正確に展開」という課題につきましては、
私個人の力量から判断して、かなり困難な事項となることが
容易に想像されてしまいます。(非常に権威ある語彙集ですので、
そのへんにある辞書を根拠に「あ、これタイプミスだ」なんてことは
簡単にはできないわけです ^^;
しかも、そのうち東洋文庫から通称「新訂版」のオンライン版が
出そうな気配ですし、それが出てしまいますと括弧付けの作業の結果が
すべて無意味になってしまいそうですから‥)
そこで、とりあえず、機械的にこれら両方の可能性に基づいた 展開をおこなってしまおうと考えたわけです。
括弧表記の機械的な展開の作業を開始してすぐに気づいたのは、 「あるいは」を示す単語 "'am" の存在でした。"'am"を利用した 機械的な文の切り分けも、実際に作業しようとすると非常に難しい ものがあります。
日本語で例をあげると「僕か君のカバン」といった ときに、「か」で対比されているのは「僕」と「君」なのか、 「僕」と「君のカバン」なのかが文の表面的な情報からでは 判別できないという問題があります。これと同じ問題がチベット語でも 生じてしまうのです。(この問題については、 現在のところ(version a1.2)まったく放置しており、 「か」があればそこで文全体が切れる -- すなわち、上にあげた 日本語の例では「僕 / 君のカバン」と切ってしまっています。 このような切り方の訂正についても、やはり今後の課題です。)
これ以外にも問題があります。
たとえば Mvyut-1352 "mi'am ci'i .."
のように、"'am" がひとつの単語の一部となっている場合があり、
ここで機械的に単語を切ってしまうと不都合が生じることが
あります。(「人か何かわからないもの」というのがもともとの
意味でしょうから、歴史的には「ひとつの単語の一部」では
なかったのかもしれません。まあ、現在の時点では単語の一部と
いってよい扱いになっているということで
ご理解いただければ‥ ^^;
)
このように、括弧表記のみならず「あるいは」表記についても、 それらを展開しようとすると非常に複雑で厄介な問題に直面して しまうことがご理解いただけたかと思います。
そこで、ここでは一つの割り切りをおこなっています。それは 「単語レベルでの検索が可能になるのであれば、 現実的にはあり得ないはずの単語が電子テキスト中に入っていても、 とりあえずは気にしないようにしよう」というものです。 すなわち、単語レベルでの検索等をおこなう際に、チベット語部分に
byas pa'am skyed pa / byas pa'am bskyed pa / byas pa'am skyed bskyed pa / byas pa / skyed pa / bskyed pa / skyed bskyed paこのように入っていれば、 "bskyed pa" という「単語」での検索が 可能になります。"skyed bskyed pa" や " byas pa'am skyed pa" という表現につきましては、おそらく実際の文中に出現することは ないだろうし、そんな「単語」で検索をする人間はいないだろう →単語の項目中にそういう候補が紛れ込んでもとりあえず実害は 生じないだろう、という判断をおこなっています。
無論、Mvyut-14 の展開された候補のうち
thams cad mkhyen pa 'am kun mkhyen / thams cad mkhyen pa kun mkhyenこれは sarvaj~na.h の対応語ではありませんので、 対応語候補のリストからは除くべきであることは間違い ありません。そのような実際に存在しない候補の削除に つきましては、今後、時間をかけて少しずつ手作業で おこなっていくしかないと考えています。
では、どのようにして括弧部分の展開をおこなっているかについて、 具体例をあげながら紹介いたします。
2096 byas pa'am skyed ( bskyed ) paMvyut. における上のような記述は、以下のようにして 複数の候補列に「展開」されます。
"byas pa'am skyed pa" (2096-1) or "byas pa'am bskyed pa" (2096-2;置換規則による) or "byas pa'am skyed bskyed pa" (2096-3;省略規則による)
さらに 'am は「あるいは」であり、そこで複数の単語が列挙されている かもしれない可能性もある、という判断によって、上にあげた各候補が展開され、 以下のような候補列となります。
"byas pa'am skyed pa" (2096-1) or "byas pa'am bskyed pa" (2096-2) or "byas pa'am skyed bskyed pa" (2096-3) or "byas pa" (2096-4;'am 展開) or "skyed pa" (2096-5;'am 展開) or "bskyed pa" (2096-6;'am 展開) or "skyed bskyed pa" (2096-7;'am 展開)この「展開」の結果、Mvyut.2096 のチベット語部分は以下のような 記述になります。(実際の配布データにおいては、 手作業によって余計と思われる候補の一部が除かれているはずですので、 以下とは異なる内容になっている可能性が高いです)
2096 byas pa'am skyed pa / byas pa'am bskyed pa / byas pa'am skyed bskyed pa / byas pa / skyed pa / bskyed pa / skyed bskyed paまた、これと同様のことをサンスクリット語の方についても おこなっています。