Introduction to Information Retrieval輪講 第19回

今回も六本木ヒルズの百度さん会議室です。

18章の「行列分解と潜在意味インデキシング」を読みました。
潜在意味インデキシング(LSI)は、単語文書行列の階数を減らして、実質的に単語の次元数を縮約してしまう方法です。(用語があやしいです。間違ってるかもしれないので雰囲気で読んでください。)
普通のベクトル空間モデルと比べて嬉しいのは、単語の共起関係をインデックスの中に織り込んでしまうところ。
LSIを使うと、carやautomobileといった同義語を含む文書を一発で検索できたり、多義的な意味を持つ一つの言葉をより分けたりできます。
(後者は、私が以前いた会社の社長がよく使っていた例を借りると、車関係の用語と一緒の文書に現れる「ジャガー」は動物じゃなくて会社名ですよねーみたいな感じ。ただしシソーラスなどを使うわけではないので、LSIにはそれが会社名であるという意味は分かりません。)
残念ながら、計算コストが非常にかかるため、2008年時点で100万以上の文書セットに適用できた事例はないそうです。

線形代数の話がほとんどで、数学をまともにやっていない私には厳しい章でしたが、担当のid:sleepy_yoshiさん、裏担当?のはてなおやさんがホワイトボードを駆使した素敵な解説をしてくださり、ある程度イメージがつかめました。
(理解できました!と元気よく書けないのが悲しいところ)

一年以上続いた勉強会ですが、次回がいよいよ最後です。19から21章をまとめて読みます。
終わってしまうのはちょっと寂しいですが、勉強会が終わった後に成果を出さなきゃな、と思います。