トップページunix
987コメント301KB

全文検索エンジンEstraier

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0717名無しさん@お腹いっぱい。2006/05/21(日) 14:30:08
Gentooスレで同じようなこと言ってる奴いなかったか?
とりあえずUSEと同じオプションでソースからmakeして、
make checkが通るかどうか試してみれ
0718名無しさん@お腹いっぱい。2006/05/21(日) 21:32:31
>>716
昔同じようなことになったけど、USE="-bzip2"にしたら正常に動くようになった。
0719名無しさん@お腹いっぱい。2006/05/21(日) 23:14:42
>>717
qdbm 1.8.56, hyperestraier 1.2.6
をとってきて configure & make したら hyperestraier の make check でエラーになりました。

orz% make check
rm -rf casket casket-*
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd create -tr -xl -attr '@uri' seq -attr '@title' str \
-attr '@author' str -attr '@mdate' num -attr '@size' num casket
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=19924487 crnum=0 csiz=0 dknum=0
./estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd put -ws casket ./misc/test001.est
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
./estcmd: INFO: 1 (http://hyperestraier.sourceforge.net/sample.txt): registered
./estcmd: INFO: flushing index words: name=casket dnum=1 wnum=1 fsiz=27266752 crnum=101 csiz=5715 dknum=0
./estcmd: INFO: closing: name=casket dnum=1 wnum=45 fsiz=27266752 crnum=57 csiz=3194 dknum=0
./estcmd: ERROR: casket: database problem
make: *** [check] エラー 1
orz%

>>718
情報 thx です。bzip2 を configure からはずしてもう一度やってみます。
07207192006/05/21(日) 23:45:07
ありがとうございました。手動ビルドで --enable-bzip をはずすと make check が通りました。
また /etc/portage/package.use に hyperestraier -bzip2 でも使えるようになりました。

0721名無しさん@お腹いっぱい。2006/05/22(月) 00:35:05
ユーザガイドによると、bzip2を使うとかなり遅くなるらしく、zlibを進めている
いるけど、なんでgentooのデフォルトはbzip2付きなんだろ。
0722名無しさん@お腹いっぱい。2006/05/25(木) 23:24:02
1.2.7が出たね。
WebクローラからP2Pサーバに分散登録する機能がついた。
かなり大規模な検索エンジンもこれで簡単に作れるようになるのかな。
0723名無しさん@お腹いっぱい。2006/06/06(火) 10:41:41
1.2.8 出たので age
estwaverのhttps対応はいつ?とても便利に使ってるので期待。
0724名無しさん@お腹いっぱい。2006/06/12(月) 19:44:03
@weight属性を全文書につけて順序指定した場合に、
@weightの値が同じ場合、@idでソートされてしまうようなんですが、
これをスコア順にすることってできないんでしょうか?
0725名無しさん@お腹いっぱい。2006/07/03(月) 23:55:29
いつのまにかPerl用API出てたんでage
0726名無しさん@お腹いっぱい。2006/07/11(火) 15:23:45
最近話題ないね。
0727名無しさん@お腹いっぱい。2006/07/11(火) 15:41:41
1.3.2 が出てるじゃん。
ここしばらく頻繁にアップグレードしてる印象があるけど。
0728名無しさん@お腹いっぱい。2006/07/12(水) 21:51:30
作者は最近mixiに入社したらしいね。
0729名無しさん@お腹いっぱい。2006/07/12(水) 22:46:57
はつみみです。
0730名無しさん@お腹いっぱい。2006/07/12(水) 23:03:31
ttp://www.hirax.net/diaryweb/2006/06/03.html
0731名無しさん@お腹いっぱい。2006/07/12(水) 23:21:18
え〜、googleにでもヘッドハントされるんじゃないかと思っていたのに……
なんでそんなところに……
0732名無しさん@お腹いっぱい。2006/07/13(木) 00:10:12
>>731
これ使ったことないけど、そんなに凄い技術なの?
0733名無しさん@お腹いっぱい。2006/07/13(木) 01:03:10
Googleには同じようなことをやっているチームが既にあるわけだし、
多少できる人材が加わったところであまり意味はないような。
それよりは、検索対象のデータをいっぱい持っているけど検索技術が
まだないところに行ってもらった方がよさげ。
0734名無しさん@お腹いっぱい。2006/07/17(月) 22:10:13
WebクローラのSSL対応まだー?
0735名無しさん@お腹いっぱい。2006/07/17(月) 22:26:40
>>734
なにそれ?
Webのクロール機能なんてあるの?
0736名無しさん@お腹いっぱい。2006/07/17(月) 22:38:54
つ ttp://hyperestraier.sourceforge.net/cguide-ja.html
0737名無しさん@お腹いっぱい。2006/07/24(月) 02:50:08
Database::openなんだけど
DRWRITER | DBREADERで読み書きモードでオープンしたら
やっぱりまずい?
検索結果に出てきた文書をそのままoutしてしまいたいんだけど。

試してみると30回ほどやってみてデータの破壊はなかった
0738名無しさん@お腹いっぱい。2006/07/24(月) 08:42:58
DBWRITERだけで読み込みも書き込みもできるよ。
0739名無しさん@お腹いっぱい。2006/07/24(月) 21:34:04
>>738
トンクス。
0740名無しさん@お腹いっぱい。2006/07/27(木) 21:09:15
質問:
検索結果を重要度が高い順に並べたりしてくれるような機能ってありますか?

msearchを使っているのですが、更新が新しいもの順とか、アルファベット順とか
そんな機能しかないのです。
0741名無しさん@お腹いっぱい。2006/07/27(木) 21:27:27
>>740
はい
07427402006/07/27(木) 23:13:06
まじですか?
導入検討します
0743名無しさん@お腹いっぱい。2006/07/31(月) 14:19:32
Estraierで言うところの重要度って何を元に重要度としてるの?
ページの<title>タグとか<h>タグとかを見てたりするの?
0744名無しさん@お腹いっぱい。2006/07/31(月) 17:37:11
>>743
ヒント ユーザーガイド
0745名無しさん@お腹いっぱい。2006/07/31(月) 17:49:42
HTMLの要素の意味とかは特に斟酌しない。基本的には、タグはぜんぶとっぱらっ
て、テキストをぜんぶくっつけたものとして取り込んでいると考えてさしつかえない。
0746名無しさん@お腹いっぱい。2006/08/01(火) 00:02:13
キーワードを登録して重み付けする機能はあるけど。
0747名無しさん@お腹いっぱい。2006/08/01(火) 02:21:59
>>745
読んでる部分はある。titleと、、、あとなんだっけ?
0748名無しさん@お腹いっぱい。2006/08/01(火) 02:50:24
>747
metaとか見てる筈。でもそれくらい。
title は @title 属性にもなるし、本文にも隠しテキストとして入っている。

という話はややっこしいので、 743 にはああ書いた方が伝わると思ったんで
あのように書いた。少なくとも h1 とかで重要度とかいうのは考えてないです
よという感じ。


そもそも 743 の考えている重要度ってのがおれにはよくわかってないんですが。
基本的には H.E. では単語の重要度には Tf-Idf を使ってるよ、てのが答えに
なっているのかな。
0749名無しさん@お腹いっぱい。2006/08/01(火) 03:13:49
estwaverを動かそうとしたらSegmentation faultで落ちるのでがっかり。
0750名無しさん@お腹いっぱい。2006/08/01(火) 07:22:46
俺は、qdbmコンパイルするときに、最適化オプション付けまくったらSEGV。
estcmd gatherでもだけど。
0751名無しさん@お腹いっぱい。2006/08/01(火) 20:36:06
NAMAZUは<title>とか<meta>以外にも何か読んでる?
0752名無しさん@お腹いっぱい。2006/08/01(火) 21:22:35
なぜそれをここで聞く
0753名無しさん@お腹いっぱい。2006/08/04(金) 07:36:15
文書ドラフト(中間フォーマット)について教えてほしいのですが
これは普通(マニュアル通り)に記述してインデックス作成すれば検索できるように
なるのでしょうか?
マニュアルにある「若者たち」をやってみたのですが、検索されません。
どうしたらいいでしょうか?
0754名無しさん@お腹いっぱい。2006/08/04(金) 09:01:44
「どうしたらいいでしょうか?」なんて質問にまともに答えられるわけないだろ。
インデックスを作った時の操作が間違ってるとした言えない。

せめて、実行したコマンドを張り付けるとか、ログを張り付けるとか、実行環境について書くとかしませう。
0755名無しさん@お腹いっぱい。2006/08/04(金) 15:49:18
ありがとうございます。はじめたばかりの初心者です。すいません

# estcmd put casket /home/date.est
estcmd: ERROR: casket:invalid argument

# estcmd version
Hyper Estraier 1.3.4 on FreeBSD
date.estはUTF-8で記述してあります。

実行前には普通にインデックスをは作成しました。
0756名無しさん@お腹いっぱい。2006/08/04(金) 23:34:30
ちゃんとcasketがあるディレクトリで実行してる?
0757名無しさん@お腹いっぱい。2006/08/04(金) 23:46:21
@uriっていう属性がないと登録できないんだけど、ちゃんと入れてる?
@urlじゃだめだよ。それでダメなら、date.estの中身を見せてみ。
0758名無しさん@お腹いっぱい。2006/08/05(土) 04:28:10
>>757,756
ありがとうございます。登録する事が出来ました。@uriの記述でした。

文書ドラフト形式の登録の場合、ファイル毎に登録しなければならないでしょうか?
一括で登録する方法ってありませんでしょうか?
よろしくお願いします。
0759名無しさん@お腹いっぱい。2006/08/05(土) 04:49:51
>>758
文書ドラフトであってもestcmd gatherで登録できる
0760名無しさん@お腹いっぱい。2006/08/16(水) 10:17:26
1.3.7 ageSSL対応期待.使える?
0761名無しさん@お腹いっぱい。2006/08/17(木) 20:42:06
estcmd draft -fh -il ja (file)
ファイル名をつけると
# 1;2c1;2c1〜
と表示します
ファイル名無しだとフリーズするのですが、どうすればいいのでしょうか?
0762名無しさん@お腹いっぱい。2006/08/18(金) 05:22:14
フリーズっていうか、標準入力を読もうとしてブロックしてるだけじゃん。
0763名無しさん@お腹いっぱい。2006/08/18(金) 14:43:03
これって、Cygwinで使えますか?
0764名無しさん@お腹いっぱい。2006/08/18(金) 18:17:53
>762
ありがとうございます。
標準入力ってどんなの?
普通のHTML文章じゃダメなのかな?
0765名無しさん@お腹いっぱい。2006/08/18(金) 21:37:48
>764
お前の理解力に合わせて言うとキーボードからの入力待ち状態だと思ってさしつかえない。
っていうか勉強しろ。


ちなみに、 fh をつければ、ちゃんと HTML として解釈してくれる。
0766名無しさん@お腹いっぱい。2006/08/18(金) 21:45:05
ありがとうさん
コマンドオプションにfhをつけてるが?
0767名無しさん@お腹いっぱい。2006/08/19(土) 20:44:11
>763
CygwinでなくてネイティブWin32版が出てる。
0768名無しさん@お腹いっぱい。2006/08/20(日) 09:37:25
>>449
WinXP以降ならば
@echo off
for %%A IN ("%ESTORIGFILE%") DO echo "%%~nA" > "%2"
0769名無しさん@お腹いっぱい。2006/09/10(日) 00:27:53
1.4.2が出てるな。疑似インデックスって使ってる人いる?
0770名無しさん@お腹いっぱい。2006/09/13(水) 18:03:11
アップデートしたときはインデックスを再度作り直ししなきゃいけないの?
0771名無しさん@お腹いっぱい。2006/09/13(水) 18:57:12
内部で使っているqdbmの形式が変わってなければ大丈夫のはず。
0772名無しさん@お腹いっぱい。2006/09/14(木) 01:40:58
ほとんどがqdbmのアップデートに伴うような・・
変更点とかってどうやって解るの?
0773名無しさん@お腹いっぱい。2006/09/14(木) 10:43:16
>>772
それ漏れも知りたい。
ほぼ全てのリリースでqdbmの更新が必要だからな。
0774名無しさん@お腹いっぱい。2006/09/14(木) 11:05:50
qdbm の更新は必ずしも qdbm のファイル形式の変更を意味しないよ。
たいていの更新ではファイル形式じたいは変わってないので読み書きできると
思う。なんでそのくせ最新版を要求するのかはよくわからない。

qdbm のバージョンアップに伴い旧形式で読み書きできなくなるときは、作者
の人がそのような注意をアナウンスのときにしている気がする。
けれどそれは何も保証するものではないなあ。
0775名無しさん@お腹いっぱい。2006/09/14(木) 11:18:15
そういうのは周辺コミュニティがサポートするもんだがなあ。
0776名無しさん@お腹いっぱい。2006/09/14(木) 13:35:46
QDBMは本来の目的意外にもH.E.のためにつくられた汎用的なユーティリティ関数群を
(余所で再利用することを考えて?)H.E.の外部に出しておくためのライブラリとしての側面があるからねえ。
0777名無しさん@お腹いっぱい。2006/09/14(木) 14:47:01
H.E.って何?って思ったけど
HyperEstraierの略だったのね^^

でも意味わからなぁ〜い
まだまだ未熟ですがご指導お願いいたします。
0778名無しさん@お腹いっぱい。2006/09/14(木) 23:23:46
超迷子だよ。
0779名無しさん@お腹いっぱい。2006/09/15(金) 11:49:52
みんな初心者なのねw
0780名無しさん@お腹いっぱい。2006/09/15(金) 15:03:07
とりあえずは qdbm 同梱にしちゃえばいいのにー。
H.E. 側で安定したら qdbm 側に反映するとかー。
0781名無しさん@お腹いっぱい。2006/09/15(金) 17:46:10
同梱しても >>770 の問題は解決されないし、同梱のメリットって何?

せいぜい最新版にしたときのコンパイルがちょびっと楽になるというくらい?
別途に qdbm が欲しい人にとってはかえって面倒なだけだし。
0782名無しさん@お腹いっぱい。2006/09/15(金) 22:10:21
同梱すれば、QDBMとH.E.のバージョンが食い違うというミスは無くせるよね。
それに、ダウンロードする回数も1回で済む。

デメリットに関しては>>781の言う通りだと思う。
0783名無しさん@お腹いっぱい。2006/09/17(日) 07:52:41
case 59: name = "ちょwwwおまwwwいごww"; break;
case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
0784名無しさん@お腹いっぱい。2006/09/17(日) 14:32:50
case 51: name = "超迷子は少年を浪費する"; break;
case 53: name = "超迷子さんのすきゃんてぃ"; break;

作者の世代がなんとなくわかるな。
0785名無しさん@お腹いっぱい。2006/09/18(月) 11:50:16
まあ、作者のページには生年月日が書いてあるけどな。
0786名無しさん@お腹いっぱい。2006/09/18(月) 16:54:12
おちゃめさんなんですね
0787名無しさん@お腹いっぱい。2006/09/20(水) 17:21:39
無知な所もありますのでご指導いただければ幸いなのですが
インターフェイルに接続するときに
http://localhost:1978/master_ui等でブラウザからアクセスするのですが
これはポートポート番号1978を使って接続していますよね?
nmapで見てみたら1978は表示しないのですが何ででしょう?
0788名無しさん@お腹いっぱい。2006/09/20(水) 17:36:30
netstat -l すれば?

nmap はデフォルトでスキャンするポートに含まれてないからじゃないの。
-p1978 すれば出てくるでしょ。
0789名無しさん@お腹いっぱい。2006/09/20(水) 23:07:47
w3m から cgi 叩けますか?
0790名無しさん@w3m2006/09/20(水) 23:51:14
cgiは糞。とにかく最低。cgiはマジ氏ねばいい。
0791名無しさん@お腹いっぱい。2006/09/20(水) 23:52:51
>>789
ローカルCGIでもちゃんと動くよ。
0792名無しさん@お腹いっぱい。2006/09/22(金) 02:56:41
logファイルってどうやって読めばいいの?
2006-09-20T14:41:33ZINFO[71]: fetching: 1: http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdbm&Search=Search
何度トライしても上記でフリーズ?するんだけど
0793名無しさん@お腹いっぱい。2006/09/27(水) 15:37:07
実装メモリが少ない場合はzlibを有効にしないほうがいいですよね?
0794名無しさん@お腹いっぱい。2006/09/27(水) 20:00:32
教えていただきたいのですが
ユーザーガイドに
データをダンプするコマンド
estcmd search -max -1 -dd casket [UVSET]
とあるのですが「UVSET]って何をすればいいのでしょうか?

estcmd search -max -1 -dd casket
これだけだと
estcmd: ERROR: /***/casket: I/O problem
と表示されます
0795名無しさん@お腹いっぱい。2006/09/27(水) 21:21:21
[UVSET] は [UVSET] のままでいいよ。何かの文字列に置き換えるって意味じゃない。
0796名無しさん@お腹いっぱい。2006/09/28(木) 01:08:45
estcmd search -max -dd 1 casket [UVSET]
estcmd: No match.

こんなん表示されます。どうしたらいいでしょう

0797名無しさん@お腹いっぱい。2006/09/28(木) 02:31:06
それは [] の文字がシェルの特殊文字なんでエラーになってる。 H.E. の問題じゃないよ。

estcmd search -max -dd 1 casket '[UVSET]'
とするとよろし。
0798名無しさん@お腹いっぱい。2006/09/28(木) 03:21:19
ありがとうございます。動作しました。
しかしながら *.est のファイルが見当たらないのですがどうしたらいいのでしょう
0799名無しさん@お腹いっぱい。2006/09/28(木) 10:04:28
-max オプションの引数が -dd になってるからじゃね?
取得最大数を無制限にするなら-1を指定するから、
estcmd search -max -1 -dd casket '[UVSET]'
が正解のような。
0800名無しさん@お腹いっぱい。2006/09/28(木) 11:44:25
すいませんでした。
転記ミスです。
#estcmd serach -max -1 -dd casket '[UVSET]'
--------[6801AEBA0ECCC85A]--------
VERSION 1.0
NODE local
HIT 33494
HINT#1 [UVSET] 33494
TIME 0.461
DOCNUM 33494

--------[6801AEBA0ECCC85A]--------
--------[6801AEBA0ECCC85A]--------:END
0801名無しさん@お腹いっぱい。2006/09/28(木) 14:04:10
カレントディレクトリに*.estを書き出そうとしたけどパーミッションがないとかかなぁ。
0802名無しさん@お腹いっぱい。2006/09/28(木) 17:15:52
rootで作業しています。
念のためにパーミッションを変更しましたが同様です。
0803名無しさん@お腹いっぱい。2006/09/28(木) 18:24:27
そうそう、それ聞こうと思ってたけど、なんで root なの?
まあいいけど。

・適当な ID で estcmd get したらできるか
・-max 1 (とか少ない数)にしたらどうなるか、 -dd を外すとどうなるか
・作業場所はどんなところか、残り容量はどれくらいか

とかも確認よろ。

あとありえないと思うけど、 NFS 共有してる場所とか、場合によって root
でも書き込めない場所というのはあるよ。
0804名無しさん@お腹いっぱい。2006/09/28(木) 19:38:54
お手数かけました。
再度ユーザーガイドを見ながら最初からやり直したら出来ました。

rootで作業は横着したいので作業してます。
閉ざされた環境なので問題ないと思っています。
0805名無しさん@お腹いっぱい。2006/09/28(木) 20:42:35
ええっと解決したときは何のミスだったかとか書いてくれるとうれしい。


一般的な考え方としてはよっぽどの作業(システムに変更を加えるというまさ
にそのアクションそのもの)以外の場合に root を使うのはダメゼッタイ。
環境がどうこうとか、問題がないとか関係なく、やめた方がいいよ。
0806名無しさん@お腹いっぱい。2006/09/29(金) 04:34:08
version 1.4.3
クローラの設定ファイル_conf
# text size limitation (in kilobytes)
これって取得するtextのサイズ制限でいいのかな?

0807名無しさん@お腹いっぱい。2006/09/29(金) 10:08:44
取得してから抽出するテキストのサイズだろ
0808名無しさん@お腹いっぱい。2006/09/29(金) 11:37:11
各コマンドで作成されたファイルを覗きたい時に利用できるedetorって何かありますか?
圧縮されてるから普通のedetorで見れないだけ?
sestseek.cgiも覗いて見たいです。
環境はwin、UNIXどちらでもいいです。
0809名無しさん@お腹いっぱい。2006/09/29(金) 11:39:27
edetorってなんだ?
0810名無しさん@お腹いっぱい。2006/09/29(金) 12:07:29
エデターだべさ。
0811名無しさん@お腹いっぱい。2006/09/29(金) 14:07:29
cgiはCで書かれているだけ。ソースをダウンロードして嫁。

コマンドで作成されたファイルというのが DB のことを指すのであれば、この
構成については基本的にはドキュメントがない。どうしても知りたければソー
スを読むか作者に聞くかするしかないんじゃない。
また、H.E. のDBは基本的には QDBM のDBファイルだろうから、 QDBM のユー
ティリティコマンドでいろいろ弄れることは弄れるはず。
0812名無しさん@お腹いっぱい。2006/09/29(金) 14:23:30
何で読めばいい?
0813名無しさん@お腹いっぱい。2006/09/29(金) 14:25:59
お好みのエデターで
0814名無しさん@お腹いっぱい。2006/09/29(金) 15:04:39
お好みのエデターがね
表示しないのよぉ〜
何使ってる?教えて
0815名無しさん@お腹いっぱい。2006/09/29(金) 15:10:00
emacs
0816名無しさん@お腹いっぱい。2006/10/02(月) 15:05:20
ファイル名に“?”や“=”等の文字が含まれている場合、
INDEXをコマンドを使って作成すると文字が変換されてしまい
検索結果をリンクしても表示されません

特殊な文字を使ったファイル名を別な文字にあらかじめ置き換えておく方法が考えられますが
他に方法はありますでしょうか?
よろしくお願いします。

■ このスレッドは過去ログ倉庫に格納されています