戸谷 健二、湯川 高志 (長岡技術科学大学)
検索要求で与えられた言語とは異なる言語で書かれた文書集合から検索を行う多言語情報検索は辞書などの言語資源が豊富にある言語を中心に研究が行われているが、 一方で言語資源が整っていない言語に対する研究はほとんど行われておらず、 言語間の格差が問題とされている。 本研究ではそのような言語格差の解消を目指し、 言語資源が成熟していない言語への適用を意識した検索精度の向上方法を考案した。 一般的に言語資源が未成熟な言語を対象とした場合、 単語の正確な対訳を得ることが難しく検索精度の低下が問題となる。 そこで本研究では概念ベースが単語同士の関係から作成される知識ベースであり、 コーパスがあれば作成可能であるという点に着目し、 これを利用して検索精度を向上させる。 提案法の評価には科学技術文書を対象としたNTCIR1‐CLIR用テストコレクションを用い、 和英辞書として2000語程度の対訳を記した小規模な辞書データを使用した。 結果として、言語資源が未成熟な言語を対象とした場合の検索でも検索精度の向上が確認できた。