トップページunix
987コメント301KB

全文検索エンジンEstraier

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0773名無しさん@お腹いっぱい。2006/09/14(木) 10:43:16
>>772
それ漏れも知りたい。
ほぼ全てのリリースでqdbmの更新が必要だからな。
0774名無しさん@お腹いっぱい。2006/09/14(木) 11:05:50
qdbm の更新は必ずしも qdbm のファイル形式の変更を意味しないよ。
たいていの更新ではファイル形式じたいは変わってないので読み書きできると
思う。なんでそのくせ最新版を要求するのかはよくわからない。

qdbm のバージョンアップに伴い旧形式で読み書きできなくなるときは、作者
の人がそのような注意をアナウンスのときにしている気がする。
けれどそれは何も保証するものではないなあ。
0775名無しさん@お腹いっぱい。2006/09/14(木) 11:18:15
そういうのは周辺コミュニティがサポートするもんだがなあ。
0776名無しさん@お腹いっぱい。2006/09/14(木) 13:35:46
QDBMは本来の目的意外にもH.E.のためにつくられた汎用的なユーティリティ関数群を
(余所で再利用することを考えて?)H.E.の外部に出しておくためのライブラリとしての側面があるからねえ。
0777名無しさん@お腹いっぱい。2006/09/14(木) 14:47:01
H.E.って何?って思ったけど
HyperEstraierの略だったのね^^

でも意味わからなぁ〜い
まだまだ未熟ですがご指導お願いいたします。
0778名無しさん@お腹いっぱい。2006/09/14(木) 23:23:46
超迷子だよ。
0779名無しさん@お腹いっぱい。2006/09/15(金) 11:49:52
みんな初心者なのねw
0780名無しさん@お腹いっぱい。2006/09/15(金) 15:03:07
とりあえずは qdbm 同梱にしちゃえばいいのにー。
H.E. 側で安定したら qdbm 側に反映するとかー。
0781名無しさん@お腹いっぱい。2006/09/15(金) 17:46:10
同梱しても >>770 の問題は解決されないし、同梱のメリットって何?

せいぜい最新版にしたときのコンパイルがちょびっと楽になるというくらい?
別途に qdbm が欲しい人にとってはかえって面倒なだけだし。
0782名無しさん@お腹いっぱい。2006/09/15(金) 22:10:21
同梱すれば、QDBMとH.E.のバージョンが食い違うというミスは無くせるよね。
それに、ダウンロードする回数も1回で済む。

デメリットに関しては>>781の言う通りだと思う。
0783名無しさん@お腹いっぱい。2006/09/17(日) 07:52:41
case 59: name = "ちょwwwおまwwwいごww"; break;
case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
0784名無しさん@お腹いっぱい。2006/09/17(日) 14:32:50
case 51: name = "超迷子は少年を浪費する"; break;
case 53: name = "超迷子さんのすきゃんてぃ"; break;

作者の世代がなんとなくわかるな。
0785名無しさん@お腹いっぱい。2006/09/18(月) 11:50:16
まあ、作者のページには生年月日が書いてあるけどな。
0786名無しさん@お腹いっぱい。2006/09/18(月) 16:54:12
おちゃめさんなんですね
0787名無しさん@お腹いっぱい。2006/09/20(水) 17:21:39
無知な所もありますのでご指導いただければ幸いなのですが
インターフェイルに接続するときに
http://localhost:1978/master_ui等でブラウザからアクセスするのですが
これはポートポート番号1978を使って接続していますよね?
nmapで見てみたら1978は表示しないのですが何ででしょう?
0788名無しさん@お腹いっぱい。2006/09/20(水) 17:36:30
netstat -l すれば?

nmap はデフォルトでスキャンするポートに含まれてないからじゃないの。
-p1978 すれば出てくるでしょ。
0789名無しさん@お腹いっぱい。2006/09/20(水) 23:07:47
w3m から cgi 叩けますか?
0790名無しさん@w3m2006/09/20(水) 23:51:14
cgiは糞。とにかく最低。cgiはマジ氏ねばいい。
0791名無しさん@お腹いっぱい。2006/09/20(水) 23:52:51
>>789
ローカルCGIでもちゃんと動くよ。
0792名無しさん@お腹いっぱい。2006/09/22(金) 02:56:41
logファイルってどうやって読めばいいの?
2006-09-20T14:41:33ZINFO[71]: fetching: 1: http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdbm&Search=Search
何度トライしても上記でフリーズ?するんだけど
0793名無しさん@お腹いっぱい。2006/09/27(水) 15:37:07
実装メモリが少ない場合はzlibを有効にしないほうがいいですよね?
0794名無しさん@お腹いっぱい。2006/09/27(水) 20:00:32
教えていただきたいのですが
ユーザーガイドに
データをダンプするコマンド
estcmd search -max -1 -dd casket [UVSET]
とあるのですが「UVSET]って何をすればいいのでしょうか?

estcmd search -max -1 -dd casket
これだけだと
estcmd: ERROR: /***/casket: I/O problem
と表示されます
0795名無しさん@お腹いっぱい。2006/09/27(水) 21:21:21
[UVSET] は [UVSET] のままでいいよ。何かの文字列に置き換えるって意味じゃない。
0796名無しさん@お腹いっぱい。2006/09/28(木) 01:08:45
estcmd search -max -dd 1 casket [UVSET]
estcmd: No match.

こんなん表示されます。どうしたらいいでしょう

0797名無しさん@お腹いっぱい。2006/09/28(木) 02:31:06
それは [] の文字がシェルの特殊文字なんでエラーになってる。 H.E. の問題じゃないよ。

estcmd search -max -dd 1 casket '[UVSET]'
とするとよろし。
0798名無しさん@お腹いっぱい。2006/09/28(木) 03:21:19
ありがとうございます。動作しました。
しかしながら *.est のファイルが見当たらないのですがどうしたらいいのでしょう
0799名無しさん@お腹いっぱい。2006/09/28(木) 10:04:28
-max オプションの引数が -dd になってるからじゃね?
取得最大数を無制限にするなら-1を指定するから、
estcmd search -max -1 -dd casket '[UVSET]'
が正解のような。
0800名無しさん@お腹いっぱい。2006/09/28(木) 11:44:25
すいませんでした。
転記ミスです。
#estcmd serach -max -1 -dd casket '[UVSET]'
--------[6801AEBA0ECCC85A]--------
VERSION 1.0
NODE local
HIT 33494
HINT#1 [UVSET] 33494
TIME 0.461
DOCNUM 33494

--------[6801AEBA0ECCC85A]--------
--------[6801AEBA0ECCC85A]--------:END
0801名無しさん@お腹いっぱい。2006/09/28(木) 14:04:10
カレントディレクトリに*.estを書き出そうとしたけどパーミッションがないとかかなぁ。
0802名無しさん@お腹いっぱい。2006/09/28(木) 17:15:52
rootで作業しています。
念のためにパーミッションを変更しましたが同様です。
0803名無しさん@お腹いっぱい。2006/09/28(木) 18:24:27
そうそう、それ聞こうと思ってたけど、なんで root なの?
まあいいけど。

・適当な ID で estcmd get したらできるか
・-max 1 (とか少ない数)にしたらどうなるか、 -dd を外すとどうなるか
・作業場所はどんなところか、残り容量はどれくらいか

とかも確認よろ。

あとありえないと思うけど、 NFS 共有してる場所とか、場合によって root
でも書き込めない場所というのはあるよ。
0804名無しさん@お腹いっぱい。2006/09/28(木) 19:38:54
お手数かけました。
再度ユーザーガイドを見ながら最初からやり直したら出来ました。

rootで作業は横着したいので作業してます。
閉ざされた環境なので問題ないと思っています。
0805名無しさん@お腹いっぱい。2006/09/28(木) 20:42:35
ええっと解決したときは何のミスだったかとか書いてくれるとうれしい。


一般的な考え方としてはよっぽどの作業(システムに変更を加えるというまさ
にそのアクションそのもの)以外の場合に root を使うのはダメゼッタイ。
環境がどうこうとか、問題がないとか関係なく、やめた方がいいよ。
0806名無しさん@お腹いっぱい。2006/09/29(金) 04:34:08
version 1.4.3
クローラの設定ファイル_conf
# text size limitation (in kilobytes)
これって取得するtextのサイズ制限でいいのかな?

0807名無しさん@お腹いっぱい。2006/09/29(金) 10:08:44
取得してから抽出するテキストのサイズだろ
0808名無しさん@お腹いっぱい。2006/09/29(金) 11:37:11
各コマンドで作成されたファイルを覗きたい時に利用できるedetorって何かありますか?
圧縮されてるから普通のedetorで見れないだけ?
sestseek.cgiも覗いて見たいです。
環境はwin、UNIXどちらでもいいです。
0809名無しさん@お腹いっぱい。2006/09/29(金) 11:39:27
edetorってなんだ?
0810名無しさん@お腹いっぱい。2006/09/29(金) 12:07:29
エデターだべさ。
0811名無しさん@お腹いっぱい。2006/09/29(金) 14:07:29
cgiはCで書かれているだけ。ソースをダウンロードして嫁。

コマンドで作成されたファイルというのが DB のことを指すのであれば、この
構成については基本的にはドキュメントがない。どうしても知りたければソー
スを読むか作者に聞くかするしかないんじゃない。
また、H.E. のDBは基本的には QDBM のDBファイルだろうから、 QDBM のユー
ティリティコマンドでいろいろ弄れることは弄れるはず。
0812名無しさん@お腹いっぱい。2006/09/29(金) 14:23:30
何で読めばいい?
0813名無しさん@お腹いっぱい。2006/09/29(金) 14:25:59
お好みのエデターで
0814名無しさん@お腹いっぱい。2006/09/29(金) 15:04:39
お好みのエデターがね
表示しないのよぉ〜
何使ってる?教えて
0815名無しさん@お腹いっぱい。2006/09/29(金) 15:10:00
emacs
0816名無しさん@お腹いっぱい。2006/10/02(月) 15:05:20
ファイル名に“?”や“=”等の文字が含まれている場合、
INDEXをコマンドを使って作成すると文字が変換されてしまい
検索結果をリンクしても表示されません

特殊な文字を使ったファイル名を別な文字にあらかじめ置き換えておく方法が考えられますが
他に方法はありますでしょうか?
よろしくお願いします。

0817名無しさん@お腹いっぱい。2006/10/02(月) 16:25:02
バグレポートを出す
0818名無しさん@お腹いっぱい。2006/10/02(月) 16:52:34
バグになるのかなぁ〜
RFCで定義されてるみたいだから正常だと思うんだけど
0819名無しさん@お腹いっぱい。2006/10/02(月) 18:24:02
> 検索結果をリンクしても表示されません
これは、バグと言えると思うけどなぁ
08208162006/10/02(月) 19:39:48
とりあえずestseek.confのreplaceに記述してなんとか表示するようにしました。

次に困ったら又考えよう
0821名無しさん@お腹いっぱい。2006/10/02(月) 21:41:00
showlreal: true
にすればエスケープしてないファイル名を表示してくれるんじゃね?
0822名無しさん@お腹いっぱい。2006/10/03(火) 16:03:20
estfraud.cgiを利用したい時って
estfraud.confだけを設定したらいい?
それともestfraud.conf+_confの設定?
0823名無しさん@お腹いっぱい。2006/10/04(水) 16:48:26
N-gram戦争中w
全文検索ユーティリティ統一スレッド part3
ttp://pc8.2ch.net/test/read.cgi/bsoft/1120649196/
0824名無しさん@お腹いっぱい。2006/10/05(木) 07:59:33
イントラネットの検索に使おうとしていますが取りこぼしが多いです。
少なくともリンクがダブルクォートで囲ってないと誤動作するようです。HTML
規格違反だとは思いますが。
あとpukiwikiのぺージにはまりこんでしまう問題もなんとかならないでしょうか。
0825名無しさん@お腹いっぱい。2006/10/05(木) 08:39:11
HyperEstraierは正確にはN.M-gram(と作者が呼んでる)手法だから、
単なるN-gramとは事情がちょっと違うよなあ。
0826名無しさん@お腹いっぱい。2006/10/05(木) 09:10:06
理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
ないし。
>>824
そのレベルの問題は作者に報告するのがよかろうに。
0827名無しさん@お腹いっぱい。2006/10/05(木) 17:30:08
クローラ単独(初期状態の_confで変更点はURLのみ)で動作してて作成された ~casket/_indexなんですけ
このindexをestseek.cgiで指定して検索した場合って検索結果って表示されますか?
0828名無しさん@お腹いっぱい。2006/10/05(木) 19:30:58
>>827
estwaverやestmasterで作ったインデックスも
estcmdで作ったインデックスと全く同じように使えるよ。
0829名無しさん@お腹いっぱい。2006/10/05(木) 21:16:19
クローラに取得した時間表記をlocaltime(JST)にしたいときはどうすればいいですか?
0830名無しさん@お腹いっぱい。2006/10/05(木) 23:38:04
estseek.tmplにJavaScript仕掛けて、Dateオブジェクト使って再計算すれば?
0831名無しさん@お腹いっぱい。2006/10/06(金) 14:15:53
クローラが巡回した後にアクセスlogにアクセスが残りますが
このアクセス名を変更したいときはどのようにすれば良いでしょうか?
バージョンだけでも隠匿したいです。
0832名無しさん@お腹いっぱい。2006/10/06(金) 16:37:50
最近社内LAN向けにH.E勉強してるんですが、
estcmd extkeys -um

っつうコマンドは何のために実行するんですか?
「インデックス内の各文書のキーワードを抽出したデータベースを作成します。」となって
いますが、インデックスを形態素解析してキーワードごとに区切り直して何のメリットが?

検索速度、精度に影響あるんですか?
0833名無しさん@お腹いっぱい。2006/10/06(金) 18:34:18
>>826
> 理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
> ないし。

へ?
俺200MBくらいの日本語テキストをLuceneのN-gramでインデックス化してるよ?
類似検索とかしなければ、0.1秒で帰ってくる。
マシンはPPCのMac mini。
0834名無しさん@お腹いっぱい。2006/10/06(金) 18:42:05
>>832
類似検索ができるようになります。
0835名無しさん@お腹いっぱい。2006/10/06(金) 20:08:53
>>832
補助インデックスでヒット数が得られれば検索速度が上がる。
そうでない場合でも、検索精度が上がる。
0836名無しさん@お腹いっぱい。2006/10/06(金) 21:24:54
Windows版で申し訳ないのですが estcmd で -attr オプションを付けると HIT 数の表示がおかしくなるみたいです。

たとえば下記の3つの結果が 53, 27, 27 になります。
estcmd search -vu -max 10 -attr "@uri STRINC Win" casket Windows
estcmd search -vu -max 10 -sk 1 -attr "@uri STRINC Win" casket Windows
estcmd search -vu -max 50 -attr "@uri STRINC Win" casket Windows

これは仕様でしょうか?
0837名無しさん@お腹いっぱい。2006/10/07(土) 07:41:25
>>836
スレ違い
0838名無しさん@お腹いっぱい。2006/10/07(土) 10:17:48
板違いなのかな。

>>836
属性インデックスを使わない場合は、ヒントの該当数表示が正確とは限らないから、
それは多分仕様。
08398362006/10/08(日) 10:38:47
>>838
レスサンクスです。UNIX版も同じでしょうか?
余計な事調べるより速度を重視ってとこでしょうかね。
この数値を元に検索結果のページ切り替えタブを作っているのですが
2ページめ(10〜20件)を表示すると総ページ数がいきなり減ってしまうので困ってます。

もうひとつ質問です。
スコアの値を基に★3つとか表示をしたいのですが満点をいくつにすればよいのかよくわかりません。
検索語が増えればどんどん点数が上がっていくみたいなので困っています。
0840名無しさん@お腹いっぱい。2006/10/08(日) 11:46:06
なんだ?
ここはUNIX板だよな?居候は謙虚になりなさいw

何をやりたいのかよくわからんが、
P2Pガイドの助言の項目(ページ)にヒントがある
加点方式だから満点も何もないだろ

0841名無しさん@お腹いっぱい。2006/10/08(日) 14:24:30
>>839
840の言う通り、加点方式だから満点に意味はない。
けれど、スコアは偏差値で調整されているはずだから、
1位を満点にすればそれっぽい表示ができるかもね。
0842名無しさん@お腹いっぱい。2006/10/08(日) 18:06:15
>>839
ここまで厚顔無恥なやつは初めてだよ
他人の迷惑も少しは考えろよ
0843名無しさん@お腹いっぱい。2006/10/08(日) 20:31:20
>>839
>余計な事調べるより
余計なことなら聞かないでくれ
0844名無しさん@お腹いっぱい。2006/10/08(日) 21:43:00
俺は839じゃないけど、842と843は心狭杉。
0845名無しさん@お腹いっぱい。2006/10/08(日) 21:57:39
答えもヒント与えてるし広すぎだと思うぞ
教えて君が助長しないか心配
0846名無しさん@お腹いっぱい。2006/10/08(日) 22:47:31
これもゆとり教育のせいなのかな・・・
0847名無しさん@お腹いっぱい。2006/10/08(日) 22:48:40
N-gramを使うまでは、僕はまったくもてませんでした。
2ちゃんねるやWarez、最新アニメの話で彼女をひきつけようとしても、白けられるばかりでした。
N-gramを使ってからは全てが変わりました。
全文検索の話で盛り上がり、彼女はもう僕にめろめろです。
素敵な彼女のハートをつかむことを助けてくれたN-gramに僕は大感謝です。
0848名無しさん@お腹いっぱい。2006/10/09(月) 00:59:16
たとえば!の話だ。
単にHがしたい!と言う質問に対しては
嫁に相手してもらえ!彼女を作れ!や風俗に行け!と言う明確な回答が出来る。
しかし、有名アイドルとHがしたい!と言う条件がつく質問には幅広い回答しか出来まい
0849名無しさん@お腹いっぱい。2006/10/09(月) 09:48:29
クローラーを再巡回させたとき、削除された文章があったときは
データから削除される?
08508362006/10/09(月) 23:01:54
ありゃりゃ、なんか荒らしちゃってすみません。

>>840-841
ご回答ありがとうございます。
P2Pの方は関係ないと思って全然読んでませんでした。

>>843
余計な事・・・っていうのは>>838さんの回答に対してではなく
(EstraierがHit数のような)余計な事調べるより(検索)速度を重視
って意味です。念のため。

それではお邪魔しました。
0851名無しさん@お腹いっぱい。2006/10/10(火) 01:23:20
クローラーの動作なんですけど
replace ~file/usr/home/data/{{!}}http://domein.com/
とした場合、訪問するのは/usr/home/data/でしょうか?http://domein.com/
でしょうか?それともエラーで訪問しないのでしょうか?
0852名無しさん@お腹いっぱい。2006/10/11(水) 19:58:16
とりあえずLAN内のファイルサーバを検索できるところまではできたんだけど、
Namazuの-excludeオプションみたいな、特定のフォルダだけ検索対象から
除外するにはどうすればいいの?

あと、Namazuみたいに複数のインデックスに分けて、チェックボックスで
検索対象選ぶインターフェイスにしたいんだけど@genreで分けるしか方法はないの?
インデックス自体を物理的に分けて、横断検索できたらなぁ。。。
0853名無しさん@お腹いっぱい。2006/10/11(水) 23:22:29
>Namazuの-excludeオプションみたいな、特定のフォルダだけ検索対象から
>除外するにはどうすればいいの?
estcmd scandir と estcmd regex を組み合わせてゴリゴリやる.
#findとgrepでも可

>インデックス自体を物理的に分けて、横断検索できたらなぁ。。。
estmaster 使ってメタ検索を使う.
0854名無しさん@お腹いっぱい。2006/10/12(木) 16:36:37
>>853
estmasterとかマニュアル読んだけど意味全然分かんないし。
昔あったestmerge.cgiってHyper Estraierには使えないのかな?
便利な機能削ってP2Pだとかやたら取っつきにくい新機能で「すごいだろ」
って言われても一般ユーザーにはどうすることも出来ないよ。
0855名無しさん@お腹いっぱい。2006/10/12(木) 18:39:14
いいの、一般人はフロントエンドだけみればいいんだから。
0856名無しさん@お腹いっぱい。2006/10/13(金) 20:27:25
もしかしてキーワードの抽出に分かち書きを利用するとクローラーってまともに動かない?
0857名無しさん@お腹いっぱい。2006/10/13(金) 21:37:47
わかち書き使ってクローラー動かしてるけど普通に動くよ
0858名無しさん@お腹いっぱい。2006/10/14(土) 01:05:02
MeCabじゃなくて-um?
0859名無しさん@お腹いっぱい。2006/10/14(土) 03:46:13
BSD系で-umつきクローリングするとSEGVったりdouble freeになったりすることがある
libmecabのpthread&mmapまわりか、libqdbmのガベコレか、どっちかが臭い(たぶん前者)
0860名無しさん@お腹いっぱい。2006/10/14(土) 10:49:53
>>854
一般ユーザ向けのソフトじゃないでしょ
いきなり何いってるんだ?
0861名無しさん@お腹いっぱい。2006/10/14(土) 10:54:57
サンキュ
0862名無しさん@お腹いっぱい。2006/10/16(月) 18:36:44
Hyper Estraierって、namazuでのNMZ.result.normal.jaのように
結果のカスタマイズはできませんか?
0863名無しさん@お腹いっぱい。2006/10/16(月) 20:03:33
回答者にnamazuを使え!ってことか?

ユーザーガイド読めよ!
0864名無しさん@お腹いっぱい。2006/10/17(火) 15:15:31
拡張子が本来、.cgiのものを.htmlで表示させてるんですけど、中にエラー処理とか入ってるために、
検索すると、エラー処理部分の<title>が表示されちゃったり、キーワード「エラー」で全件ヒットしたりしてます。
こんな時はクローラー動かすしかないですかね?
フィルタは、さっぱりわかりませんし。
0865名無しさん@お腹いっぱい。2006/10/17(火) 15:39:44
>>862
質問もまもともにできないの?
0866名無しさん@お腹いっぱい。2006/10/17(火) 16:54:35
864の言いたいことを整理すると次のようなことか。

・CGIスクリプトをそのまま H.E. につっこんでいる
・しかも HTML ファイルとして処理させている
・そうするとスクリプト中の正規の処理のパートと、エラー処理などの部分と、両方とも H.E. に1つのドキュメントに入ってしまう
・クローラを使って HTTP 経由で CGI の吐いた HTML を処理するしか方法はないのだろうか?
・フィルタは理解する気がありません

これであってる?
0867名無しさん@お腹いっぱい。2006/10/17(火) 17:45:48
データーをCGIで表示させてH.Eに取り込みたいて事だろ!

cgi自体をデーターとして取り込み操作してるから出来ないんだよ!
頭使え!

俺だったらestファイルで読み込む方法を取るな
0868名無しさん@お腹いっぱい。2006/10/20(金) 00:22:40
>>862
estseek.conf と estseek.tmpl でできる以上のカスタマイズは無理っぽい。

俺も PREV 1 2 3 4 NEXT とか
右下に英語で小さく表示されるのが嫌だったので変更したかったんだが、
estseek.c のソース見たらその辺はハードコーディングされてて
テンプレートとかでカスタマイズできるように見えなかった。
というわけで Perl で API 叩くフロントエンド書いたよ。
Namazu のテンプレートなんかよりずっと柔軟なカスタマイズができるようになった。
API マンセー
0869名無しさん@お腹いっぱい。2006/10/20(金) 10:17:49
スタイルシートをいじればほとんど何でもできることない?
0870名無しさん@お腹いっぱい。2006/10/20(金) 11:38:15
まあNamazuにもlibnmzやSearch::Perlがあるけどね。
それよりインデクサのAPIがあることのほうが素晴らしいとは思わんかね。
0871名無しさん@お腹いっぱい。2006/10/20(金) 13:07:53
知らなければ弄れない
0872名無しさん@お腹いっぱい。2006/10/20(金) 20:39:03
windows用のHyper Estraier+ANHttpdの構成で使っていますが,
全文検索(BODY TEXT)だけでなく,ファイル名も同時に検索できるようにするには
どのようにしたらよいのでしょうか。

formtype=fileでは,bodytextがpathのどちらかの検索となってしまううえに,
pathではand/or検索ができない(一語検索のみ)のですが。
■ このスレッドは過去ログ倉庫に格納されています