組み込み型全文検索エンジンSenna
■ このスレッドは過去ログ倉庫に格納されています
0129nobodyさん
2007/04/12(木) 08:25:53ID:???Sennaのインデックスは転置インデックスという構造で、
単語1: 文書ID1, 文書ID2
単語2: 文書ID1, 文書ID3
という風に、単語ごとにその単語を含む文書IDのリストを持っている。
ある文書IDだけを削除する場合、
元の文書の内容がなくても、
上記のリスト中すべての単語について
指定の文書IDがあるかどうかをチェックして削除できる。
でも激遅い。実用にならない。
以下のようなリストを別途持っておけば、
削除が必要な単語についてのみ削除処理を走らせればよい。
文書ID1: 単語1, 単語2
文書ID2: 単語1
文書ID3: 単語2
このようなリストを削除時に手に入れる方法は
・上記のリストを別途インデックスとして作っておく
・元の文書を保存しておく
・元の文書を削除時に渡す(現在のSenna方式)
の3つくらいある。
というわけで間接的だが結構影響あるぞ、ストレージ。
■ このスレッドは過去ログ倉庫に格納されています