[This file is written in Japanese Language (Shift_JIS)] [scheme: Tib:E-Wylie, Skt:aiba]

on Manipulation

「括弧表記の部分などの展開」について
( はじめに | 機械展開の問題点 | 展開方法 )

はじめに

Mvyut. 原典では以下のようになっている記述:

688 dri ma kun ( tu ) bral
この括弧部分の展開をおこなっています。(本当は "... bral ( ba )" と、もうひとつ括弧が付いてるのですが、 ここでは話を単純にするため、この後者の括弧はここでは 無視しています) ‥と、これだけでは意味不明だと思われますので、 ちょっと簡単に説明しておきます。

 蜜波羅版 Mvyut. が基づいた榊版(Sakaki's edition)における 括弧表記の用い方には一貫性がなく、 括弧部分をどのように解釈するかについては、いくつかの 可能性が考えられます。 (もともと Mvyut. は人間を対象として用意された 辞書ですから、このような括弧表記の曖昧性は本来の用途に おいてはあまり問題とならないのですが、機械にとっては 表記の曖昧性は重要な問題となります)

  1. 括弧で囲まれた部分が省略であった場合 ==> "dri ma kun bral" or "dri ma kun tu bral" である。
  2. 括弧で囲まれた部分が他の置き換えであった場合 ==> tu がその直前にある文字列 kun と置き換え可能であり、 "dri ma kun bral" or "dri ma tu bral" である。 ==> この (2) のような解釈は、この Mvyut-688 の事例では まったく役に立たないわけですが、たとえば Mvyut-268: "dpe byad bzan po brgyad cu'i ( bcu'i ) ming la" このような文字列が "dpe byad bzan po brgyad cu'i ming la" or "dpe byad bzan po brgyad bcu'i ming la" の可能性がある、と機械に判断させるときに有効になります
  3. 対応する Skt. とは直接関係ない語があったときに、その旨を 明示するため編者が括弧を付けたと思われるもの。 ==> Mvyut-14. "thams cad mkhyen pa ( 'am ) kun mkhyen" ここでの "'am" は「あるいは」という意味で用いられているだけで、 Skt. 部分の "sarvaj~na.h" とはまったく対応していません。 それゆえこの括弧は、 "'am" が単なる機能語でしかないことを明示するため、 編者が括弧付けしたのではないかと考えられます。 そこで、この部分は 単純に "/" に置き換えることで、とりあえず対応しときます。
  4. その他 ==> Mvyut-2911 にだけ、なぜか "(sic)" すなわち「原文ママ」という 記述があります。これは、榊版にある "(sic)" をそのまま入れておいた のではないかと思われます。「検索の便を考える」という観点から、 ここでは "(sic)" は消してしまっています。
それゆえ、手作業によって調査した分については 手作業による括弧部分の展開をおこなうというのはよいのですが、 Mvyut. 中でチベット語・サンスクリット語部分のいずれかに 括弧表記が用いられている約2000項目の全部について、 その括弧表記の内容を手作業によって、しかも正しく展開していくのは 非常に時間と手間のかかる作業であることは間違いありません。

 しかも「正確に展開」という課題につきましては、 私個人の力量から判断して、かなり困難な事項となることが 容易に想像されてしまいます。(非常に権威ある語彙集ですので、 そのへんにある辞書を根拠に「あ、これタイプミスだ」なんてことは 簡単にはできないわけです ^^; しかも、そのうち東洋文庫から通称「新訂版」のオンライン版が 出そうな気配ですし、それが出てしまいますと括弧付けの作業の結果が すべて無意味になってしまいそうですから‥)

 そこで、とりあえず、機械的にこれら両方の可能性に基づいた 展開をおこなってしまおうと考えたわけです。


機械展開の問題点

括弧表記の機械的な展開の作業を開始してすぐに気づいたのは、 「あるいは」を示す単語 "'am" の存在でした。"'am"を利用した 機械的な文の切り分けも、実際に作業しようとすると非常に難しい ものがあります。

 日本語で例をあげると「僕か君のカバン」といった ときに、「か」で対比されているのは「僕」と「君」なのか、 「僕」と「君のカバン」なのかが文の表面的な情報からでは 判別できないという問題があります。これと同じ問題がチベット語でも 生じてしまうのです。(この問題については、 現在のところ(version a1.2)まったく放置しており、 「か」があればそこで文全体が切れる -- すなわち、上にあげた 日本語の例では「僕 / 君のカバン」と切ってしまっています。 このような切り方の訂正についても、やはり今後の課題です。)

 これ以外にも問題があります。 たとえば Mvyut-1352 "mi'am ci'i .." のように、"'am" がひとつの単語の一部となっている場合があり、 ここで機械的に単語を切ってしまうと不都合が生じることが あります。(「人か何かわからないもの」というのがもともとの 意味でしょうから、歴史的には「ひとつの単語の一部」では なかったのかもしれません。まあ、現在の時点では単語の一部と いってよい扱いになっているということで ご理解いただければ‥ ^^;)

 このように、括弧表記のみならず「あるいは」表記についても、 それらを展開しようとすると非常に複雑で厄介な問題に直面して しまうことがご理解いただけたかと思います。

 そこで、ここでは一つの割り切りをおこなっています。それは 「単語レベルでの検索が可能になるのであれば、 現実的にはあり得ないはずの単語が電子テキスト中に入っていても、 とりあえずは気にしないようにしよう」というものです。 すなわち、単語レベルでの検索等をおこなう際に、チベット語部分に

byas pa'am skyed pa / byas pa'am bskyed pa / byas pa'am skyed bskyed pa / byas pa / skyed pa / bskyed pa / skyed bskyed pa
このように入っていれば、 "bskyed pa" という「単語」での検索が 可能になります。"skyed bskyed pa" や " byas pa'am skyed pa" という表現につきましては、おそらく実際の文中に出現することは ないだろうし、そんな「単語」で検索をする人間はいないだろう →単語の項目中にそういう候補が紛れ込んでもとりあえず実害は 生じないだろう、という判断をおこなっています。

 無論、Mvyut-14 の展開された候補のうち

thams cad mkhyen pa 'am kun mkhyen / thams cad mkhyen pa kun mkhyen
これは sarvaj~na.h の対応語ではありませんので、 対応語候補のリストからは除くべきであることは間違い ありません。そのような実際に存在しない候補の削除に つきましては、今後、時間をかけて少しずつ手作業で おこなっていくしかないと考えています。


展開方法

では、どのようにして括弧部分の展開をおこなっているかについて、 具体例をあげながら紹介いたします。

2096 byas pa'am skyed ( bskyed ) pa
Mvyut. における上のような記述は、以下のようにして 複数の候補列に「展開」されます。
"byas pa'am skyed pa" (2096-1) or "byas pa'am bskyed pa" (2096-2;置換規則による) or "byas pa'am skyed bskyed pa" (2096-3;省略規則による)

 さらに 'am は「あるいは」であり、そこで複数の単語が列挙されている かもしれない可能性もある、という判断によって、上にあげた各候補が展開され、 以下のような候補列となります。

"byas pa'am skyed pa" (2096-1) or "byas pa'am bskyed pa" (2096-2) or "byas pa'am skyed bskyed pa" (2096-3) or "byas pa" (2096-4;'am 展開) or "skyed pa" (2096-5;'am 展開) or "bskyed pa" (2096-6;'am 展開) or "skyed bskyed pa" (2096-7;'am 展開)
この「展開」の結果、Mvyut.2096 のチベット語部分は以下のような 記述になります。(実際の配布データにおいては、 手作業によって余計と思われる候補の一部が除かれているはずですので、 以下とは異なる内容になっている可能性が高いです)
2096 byas pa'am skyed pa / byas pa'am bskyed pa / byas pa'am skyed bskyed pa / byas pa / skyed pa / bskyed pa / skyed bskyed pa
また、これと同様のことをサンスクリット語の方についても おこなっています。


TA