今回も六本木ヒルズの百度さん会議室です。
18章の「行列分解と潜在意味インデキシング」を読みました。
潜在意味インデキシング(LSI)は、単語文書行列の階数を減らして、実質的に単語の次元数を縮約してしまう方法です。(用語があやしいです。間違ってるかもしれないので雰囲気で読んでください。)
普通のベクトル空間モデルと比べて嬉しいのは、単語の共起関係をインデックスの中に織り込んでしまうところ。
LSIを使うと、carやautomobileといった同義語を含む文書を一発で検索できたり、多義的な意味を持つ一つの言葉をより分けたりできます。
(後者は、私が以前いた会社の社長がよく使っていた例を借りると、車関係の用語と一緒の文書に現れる「ジャガー」は動物じゃなくて会社名ですよねーみたいな感じ。ただしシソーラスなどを使うわけではないので、LSIにはそれが会社名であるという意味は分かりません。)
残念ながら、計算コストが非常にかかるため、2008年時点で100万以上の文書セットに適用できた事例はないそうです。
線形代数の話がほとんどで、数学をまともにやっていない私には厳しい章でしたが、担当のid:sleepy_yoshiさん、裏担当?のはてなおやさんがホワイトボードを駆使した素敵な解説をしてくださり、ある程度イメージがつかめました。
(理解できました!と元気よく書けないのが悲しいところ)
一年以上続いた勉強会ですが、次回がいよいよ最後です。19から21章をまとめて読みます。
終わってしまうのはちょっと寂しいですが、勉強会が終わった後に成果を出さなきゃな、と思います。

株式会社マリーチで企画、開発を担当する道須のブログです。
No comments
Comments feed for this article
Trackback link: http://www.marici.co.jp/blog/nowhere/2009/02/10/introduction-to-information-retrieval-19/trackback/