トップページunix
987コメント301KB

全文検索エンジンEstraier

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0638名無しさん@お腹いっぱい。2006/03/31(金) 01:10:05
Wikipediaに、ローカルの辞書検索ソフトと同様の高水準のフロントエンドをつける
ことを考えよう。
(考え中……)
0639名無しさん@お腹いっぱい。2006/03/31(金) 10:10:37
>>637
むしろそういう性能目的の分散処理が一般的な利用形態なんじゃね?
0640名無しさん@お腹いっぱい。2006/03/32(土) 12:33:21
>>633
こういうの?

Ajax による Wikipedia インクリメンタルサーチ:
http://tokuhirom.dnsalias.org/~tokuhirom/wpsearch/
0641名無しさん@お腹いっぱい。2006/03/32(土) 12:45:12
>>640
そう言うのでなく、まともに動いてもっと高速なの。
0642名無しさん@お腹いっぱい。2006/03/32(土) 23:24:00
>>641
そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
0643名無しさん@お腹いっぱい。2006/03/32(土) 23:28:21
>>641
もっと高速とは?
速度に特に問題はないと思うけど。
0644名無しさん@お腹いっぱい。2006/03/32(土) 23:42:25
>>642
> そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。

うん。だからそういうのも含めて、

- 自動即時更新
- インクリメンタル検索
- 全文検索
- 検索語一覧
- バージョン追跡機能

まで装備したWikipediaフロントエンド。

メタデータなどを配るP2Pな分配システムに、
ローカルにギガバイト級のキャッシュを使って
快適に。
0645名無しさん@お腹いっぱい。2006/04/02(日) 00:30:53
言いだしっぺの法則。
0646名無しさん@お腹いっぱい。2006/04/02(日) 00:43:12
>>644
インクリメンタル検索を切り捨てさえすれば、ローカルでなくても実現できるというか、
クラサバ型の方が実現性が高そうな要求項目だね。

わざわざ巨大なデータをP2Pで配布してまでインクリメンタル検索なんてしたくないかもー。
0647名無しさん@お腹いっぱい。2006/04/02(日) 16:23:28
>>645
>>644にそんなものを作るスキルがあるとは思えない。
うろ覚えの単語を組み合わせて文章を作ってるだけのような気がすうr。
0648名無しさん@お腹いっぱい。2006/04/02(日) 16:44:06
wikipediaのインクリメンタル検索つったって見出し語にだけ使え
ればいいんだから大した規模じゃない。いいとこ数十MBだろ。

>>640をもっとまともに実装すればAjaxでやったって快適だし、
ちょろっと自前で実装しても簡単(ついでにいうとこの場合プレフィ
クスの差分だけ保管するようなデータ構造にしとけばかなり節約で
きる)。
つーかIMEの辞書に[見出し語 => URL]を入れといたって済む。

そんなんのためにP2Pとか言いだすと訳わからんことになるぞ。

0649名無しさん@お腹いっぱい。2006/04/02(日) 17:45:10
>>648
> wikipediaのインクリメンタル検索つったって見出し語にだけ使え
> ればいいんだから

そうなの? どうしてそう思うの?
0650名無しさん@お腹いっぱい。2006/04/02(日) 18:07:16
>>649
じゃお前は何を対象にしたインクリメンタル検索しようとしてるんだ?
0651名無しさん@お腹いっぱい。2006/04/02(日) 21:20:45
(´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
0652名無しさん@お腹いっぱい。2006/04/02(日) 21:30:41
>>651
Googleサジェストみたいな感じにしたいってことでしょ。
それだけのためにわざわざフロントエンドが欲しいとは全く思わないけど。
0653名無しさん@お腹いっぱい。2006/04/02(日) 21:46:06
>>651
> (´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
見出しには本文がついているんだよ。
0654名無しさん@お腹いっぱい。2006/04/02(日) 21:47:23
>>652
思わないよね。見出しだけなら前方一致で十二分。
0655名無しさん@お腹いっぱい。2006/04/02(日) 21:48:27
>>654
そんなもの欲しがる奴はキチガイだよな。
0656名無しさん@お腹いっぱい。2006/04/02(日) 21:52:51
ttp://chasen.org/~taku/software/ajax/kwic/
こーゆーののwikipedia版が欲しいとかそういう話とばかり思ってた
0657名無しさん@お腹いっぱい。2006/04/02(日) 21:59:36
>>656
rdicみたいなのじゃないの?
0658名無しさん@お腹いっぱい。2006/04/03(月) 03:56:46
自鯖のドキュメントのインデックスを
estmasterで他ホストと共有可能なかたちで公開してる人っている?
LAN内ではなく、グローバルかつリンク自由なかたちで。
いたらどんな感じか教えて欲しいんだが
(リンクしてくる他ホストはいるか、回線やサーバー機への負担は体感でどんなかんじか、など)
P2Pでそこらじゅうのインデックスが共有されるようになれば、
つーのが当初の企てっぽいのに、そういうことしてるところが見当たらないんで
ためしにやってみようかと思うんだけど
0659名無しさん@お腹いっぱい。2006/04/03(月) 10:03:48
>>658
デモサイトで動いてるみたいよ
http://athlon64.fsij.org:1978/
0660名無しさん@お腹いっぱい。2006/04/05(水) 03:05:11
mod_estraierで風博士+estraierみたいなことしてたんだけど
estmasterやApacheを止めてestcmd optimizeとかすると
database problem起こす。
estmasterやApache起動したままやると何もする形跡もないままプロンプトが戻らなくなるし。
サーバー機のスペック不足か俺の設定違いか。同じ目に会ってる人おらん?
0661名無しさん@お腹いっぱい。2006/04/05(水) 10:47:12
estmasterを止める時にkillしてない? そうするとその時点でDBが壊れるような気がす。
あと、estmasterを起動したままoptimizeできないのは、estmasterがDBをロックしている
からだと思われ。
0662名無しさん@お腹いっぱい。2006/04/10(月) 11:12:51
1.2.1リリースage
それにしても、KamailV3は萌えるね
0663名無しさん@お腹いっぱい。2006/04/15(土) 15:50:49
ノードAPI使ったサーチャのサンプルが本家にあるけど
試してみるとオニのように遅いな。
estcallやプロトコル使うより遅い。
つまりノードAPIを使う場合はサーバで動いてる
estmasterのサーチャを呼ぶんでなくて
リモートのインデックスにこっちから検索をかけるだけってことなん?
0664名無しさん@お腹いっぱい。2006/04/22(土) 00:10:27
>>663
estmaster内蔵の検索UIは /node/hogehoge/search_ui
estcallを使った場合は /node/hogehoge/search に接続しているから、
たぶん処理が違っているんじゃないかな。

0665名無しさん@お腹いっぱい。2006/04/22(土) 01:01:29
HEがバージョンあがるたびに、qdbmもあがるので追いかけるのメンドイ。
一体化してくれないかな。
0666名無しさん@お腹いっぱい。2006/04/24(月) 04:39:56
estcmd wordsで文書頻度(DF)を外部データベースに作る場合、
この外部データベースって、estcmd extkeysしたあとは捨てて
いいのかな?
保存しておくと、なんかいいことある?
0667名無しさん@お腹いっぱい。2006/04/24(月) 13:11:46
次回にestkeysを実行する時に使える。
0668名無しさん@お腹いっぱい。2006/04/24(月) 15:24:49
>>667
文書が更新されたのにDFを更新しないのは
おかしくない?
0669名無しさん@お腹いっぱい。2006/04/24(月) 16:21:17
DFを算出する対象のコーパスはでかい方がいいから文書を更新したら
DFのデータベースも更新した方がいいと思うけど、それほど精度は変わらないっぽいね。
でも、そういった意味では、もっと大規模なコーパスでDFのデータベースを作っておいて
それを使い回した方がいい希ガス。
0670名無しさん@お腹いっぱい。2006/04/27(木) 01:07:37
いまWikipediaのアーカイブにestcmd extkeysかけてるんだが、
CPU使用率が30%どまり(DFは外部データベース)。
効率悪いな。
gathererの速度もLuceneのIndexWriterの半分以下。

巨大データを扱うときは、メモリ・IO・同期がキモになると
思うんだが、そういうのをCで書くこと自体が辛いんじゃ
ないか。
アセンブラやらPOSIXやらに依存しまれば、Javaと互角
まではいけるかもしれない。
でも、移植性のある方法で書いたら、どう考えてもJavaのほうが
速くなるはず。
0671名無しさん@お腹いっぱい。2006/04/27(木) 15:44:33
extkeysは-umつけないとあまり意味がないだろ。
0672名無しさん@お腹いっぱい。2006/04/27(木) 18:17:53
>>670
estのgatherの速度はluceneよりは遥かに速いと思うけど、
どういう設定してる?
0673名無しさん@お腹いっぱい。2006/04/27(木) 22:19:50
>>672
LuceneのIndexWriterはsetMaxBufferedDocs(1000)にsetMergeFactor(100)
Hyper EstraierのgathererはDatabaseをDatabase.DBCREAT | Database.DBHUGE

もしかしてset_cache_sizeすればDisk IO待ちが減って速くなるの?
gathererが多少速くなってもestcmd extkeysの遅さはどうしようもないわけだが。
0674名無しさん@お腹いっぱい。2006/04/27(木) 23:53:56
>>673
set_cache_sizeするとすごく速くなるよ。というよりしないと遅い。
extkeysは-umすると多少速くなる。
0675名無しさん@お腹いっぱい。2006/04/30(日) 00:25:37
>>674
set_cache_sizeってどう設定するんですか?
0676名無しさん@お腹いっぱい。2006/04/30(日) 02:16:59
キャッシュを256メガにしたいなら、
db.set_cache_size(1024*1024*256, -1, -1, -1);
0677名無しさん@お腹いっぱい。2006/05/01(月) 05:27:51
estcmd gather の場合は -cs オプションね。>set_cache_size

ところで -um だけど MeCab を --enable-utf8-only オプション付きでコンパイルして
デフォルトの辞書も UTF-8 で構築、かつ Hyper Estraier のソースの mymorph.c を
EUC-JP <-> UTF-8 の変換をしないように変更するとさらに速くなるよ。

--enable-utf8-only オプション付けないと和文が2バイトから3バイトになって
解析対象のデータが多くなる分だけ UTF-8 の辞書を使った方が形態素解析が遅くなるし、
付けたら付けたで UTF-8 の文字単位で解析するようになるから MeCab で
他の文字コードが使えなくなるんで、結局デフォルトのままが無難なわけですが。
0678名無しさん@お腹いっぱい。2006/05/06(土) 19:30:12
manのページを検索したいので以下のようにしました
PATH=$PATH:/usr/local/share/hyperestraier/filter ;export PATH find /usr/share/man -type f |
egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket
としたところ
Bad : modifier in $ (/).
と言ってます。
構文とかぜんぜんわからないバカ者なのですがどうすれば良いでしょうか
教えてくださいませ。
OS=FreeBSD-5.4R
hyperest-v1.1.6です
よろしくおねがいします
0679名無しさん@お腹いっぱい。2006/05/06(土) 23:57:55
「export PATH」の後ろで改行するか、そこに「;」を置く。
0680名無しさん@お腹いっぱい。2006/05/07(日) 11:21:06
>>679
同じでした。
なんだろう?フィルターの当て方に癖があるのかな
0681名無しさん@お腹いっぱい。2006/05/07(日) 11:51:12
FreeBSD ということでもしやと思うが tcsh を使ってんじゃないだろうな。

PATH=...; export ...
という表現の意味はわかってるか?

まずは環境変数にそのパスを加えてふつうに実行してみろ。問題を切り分けるのはそれから。
0682名無しさん@お腹いっぱい。2006/05/07(日) 12:55:17
>>681
>PATH=...; export ...
>という表現の意味はわかってるか?
ありがとうございます。
意味が理解できました。
06836782006/05/08(月) 02:12:21
#echo $PATH
〜:/usr/local/share/hyperestraier/filter
と表示されます。
find /usr/share/man -type f |
 egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
 estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket -
実行後は
estcmd:INFO:〜(XXX):redistered
ulimit: too many arguments
・・・
estcmd: INFO closing: name=casket dnum=1176 wnum=0 fsiz=7252037 crnum=0 csiz=0
dknum=0
フィルタを読み込めてないって事ですよね?どのようにすれば良いでしょうか?
パスの通し方がまずいのかな?
0684名無しさん@お腹いっぱい。2006/05/08(月) 03:20:28
ulimitはフィルタの中で呼ばれているから、フィルタ自体は呼ばれていると思う。
manかcolかtrのどれかがパスに含まれてないことない?
0685名無しさん@お腹いっぱい。2006/05/08(月) 16:01:35
# echo $path
/sbin /bin /use/sbin /usr/bin /usr/games /usr/local/sbin
/usr/local/bin /usr/X11R6 /usr/local/share/hyperstraier/filter
以上が内容です。

# find /usr/share/share/man | grep -e '.*/man[0-9]' |
estcmd gather -no ft -fx"T@estfxmantotxt" -fz -sd -cm casket -
こんなのをやってみました
ulimit: too many arguments
は出力されなかったのですが、
estcmd : INFO: closing: name=casket dnum=0 wnum=0 fsiz=6898748 crnum=0
csiz=0 dknum=0
こんな表示です
0686名無しさん@お腹いっぱい。2006/05/08(月) 16:32:27
man man
ってやって、manが使える?
which man
which col
which tr
ってやるとどうなる?
0687名無しさん@お腹いっぱい。2006/05/08(月) 17:16:12
>>686
>man man
NO manual entry for man

>which man
/usr/bin/man

>which col
/usr/bin/col

>which tr
/usr/bin/tr

以上が結果です。
パス指定で/usr/binをはずして findコマンドを/usr/bin/findにすればいいのかな?
0688名無しさん@お腹いっぱい。2006/05/08(月) 18:37:18
/usr/local/share/filter/estfxmantotxt /usr/share/man/man1/ls.1.gz
を実行するとどんなエラーが出る?
(/usr/share/man/man1/ls.1.gzは適当なmanのファイルのパスに読みかえて)
0689名無しさん@お腹いっぱい。2006/05/08(月) 19:30:35
man man が出ないのは、今回の例とは関係なくマズいだろ。 manpath はどう
なってるの?

あと、 685 で /usr/share/share/man て書いてあるけど /usr/share/man の
誤記だよね?
0690名無しさん@お腹いっぱい。2006/05/08(月) 21:39:19
>>688
# /usr/local/share/filter/estfxmantotxt /usr/share/man/ja/man1/ls.1.gz
/usr/local/share/filter/estfxmantotxt: Command not found.

# /usr/local/share/hyperestraier/filter/estfxmantotxt /usr/share/man/ja/man1/ks.1.gz
/usr/local/share/hyperestraier/estfxmantotxt ulimit: too many arguments
となります

>>689
>/usr/share/share/man て書いてあるけど /usr/share/man の〜
誤記です

# manpath
/usr/share/man:/usr/local/man:/usr/X11R6/man:/usr/share/openssl/man:
/usr/local/lib/perl5/5.8.8/man:/usr/local/lib/perl5/5.8.8/perl/man
以上です
0691名無しさん@お腹いっぱい。2006/05/08(月) 22:00:14
/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
ulimitの行を消せばいいんでない?
0692名無しさん@お腹いっぱい。2006/05/08(月) 22:56:10
>>691
>/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
>ulimitの行を消せばいいんでない?
メッセージは表示されませんでしたが、結果はかわりません
0693名無しさん@お腹いっぱい。2006/05/09(火) 00:34:12
man /usr/share/man/ja/man1/ls.1.gz
はどうでしょ。
0694名無しさん@お腹いっぱい。2006/05/09(火) 01:05:50
#man /usr/share/man/ja/man1/ls.1.gz
No manual entry for /usr/share/man/ja/man1/ls.1.gz
以上です。
ちなみに/usr/share/man/ja/man1/ls.1.gzは存在してます
0695名無しさん@お腹いっぱい。2006/05/09(火) 11:35:46
man /usr/share/... はもともと出来ないでしょ。

まず、 estfxmantotxt は内部で man を呼んでるから、まず
man ls
とかして見えることを確認する。
しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
来なかったんだろ。

それから、 grep するだけじゃなくて、
〜 | xargs basename | perl -pe 's/(.*)\.(\d)(.gz)?/\2 \1/' | 〜

みたいな変換を噛まして /usr/share/man/man1/ls.1.gz から 1 ls を作りだす。


もしくは estfxmantotxt に「フルパスっぽかったら man コマンドではなく
nroff -man を使う」的なスクリプトを書くか。
0696名無しさん@お腹いっぱい。2006/05/09(火) 12:05:39
FreeBSDのmanだと絶対パス指定できないっぽいから、
フィルタの中のmanの行を
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
に変えるってのはどうでしょ。
nroffは入ってるよね? which nroff
0697名無しさん@お腹いっぱい。2006/05/09(火) 14:54:18
>しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
>来なかったんだろ。
なんでなんでしょうねぇ〜?
OSのインストールで必要最小限のファイルしか選定してないからかもしれません。

只今、別PC(man manが引けるPC)をアップデート&hyperestraierインストールしてます。
0698名無しさん@お腹いっぱい。2006/05/10(水) 11:19:54
1.2.4ちゃんと動いてる?
make checkでエラーが出るんだが。
./estcmd: INFO: 7 (/opt/inst/hyperestraier-1.2.4/doc/index.html): registered
./estcmd: ERROR: exhausting memory
./estcmd: ERROR: /opt/inst/hyperestraier-1.2.4/doc/index.html: no such item
./estcmd: INFO: flushing index words: name=casket dnum=5 wnum=1604 fsiz=27316309 crnum=226 csiz=12856 dknum=0
./estcmd: INFO: closing: name=casket dnum=5 wnum=1733 fsiz=27319842 crnum=0 csiz=0 dknum=0
make: *** [check] Error 1
0699名無しさん@お腹いっぱい。2006/05/10(水) 14:28:17
1.2.5
一応動いてますが
07006782006/05/10(水) 16:49:26
#man man
引けるようになりました。
#whice nroff
/usr/bin/nroff

estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket -

〜〜
troff: fatal error: can't '/usr/local/man/man1/cdcodec.1':no such file or
directory
estcmd: INFO closing: mame=casket dnum=0 wnum=0 fsiz=68698748 crnum=0
csiz=0 dknum=0
以上です。
マシンに言語(eucJP)を設定していないのですが、関係ありますでしょうか?

PS昨日アップデート中、HDDが逝ってしまいました><
0701名無しさん@お腹いっぱい。2006/05/10(水) 17:40:45
環境に依存するからわからないけど、 /usr/local/man/man1/cdcodec.1 は存
在するの? っていうかそのパスなら中身は英語だと思うし、であれば言語は
関係ない。

cdcodec.1 が何かのシンボリックリンクになっていて、リンク先が消えている
のにこのファイルだけ消しわすれ、とかそういう事態ではないかと推測するが。
0702名無しさん@お腹いっぱい。2006/05/10(水) 17:42:57
cdcodecじゃなくて cbcodec か orz

っていうか存在するのは 〜cbcodec.1.gz じゃないの?

何をやったのかいまひとつよくわからん。estfxmantotxt の中にじかに各ファ
イルのパスが書いてあるわけじゃないよね?
07036782006/05/10(水) 18:07:43
estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1.gz | col -b | tr '\t' ' ' | output
に書き換えて
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket

/usr/local/man/man1/cbcodec.1.gz:*: warning {p 1,****


こんなん言ってます
0704名無しさん@お腹いっぱい。2006/05/10(水) 18:16:19
/usr/local/man/man1/cbcodec.1.gzをハードコードしちゃダメぽ。

nroff -man "$infile" | col -b | tr '\t' ' ' | output

にすれば、各々のmanファイルを読めるし、さらに、

less "$infile" | nroff -man | col -b | tr '\t' ' ' | output

とすれば、gzipの場合は適切に解凍してくれるんじゃないかな。
lessが必要だけど。

0705名無しさん@お腹いっぱい。2006/05/10(水) 20:46:07
いやそこはふつう zcat (FreeBSD なら gzcat)だろう
0706名無しさん@お腹いっぱい。2006/05/10(水) 20:56:59
zcatの場合、拡張子を調べて分岐しないといけないから面倒じゃね?
lessなら自動判定してくれる。
0707名無しさん@お腹いっぱい。2006/05/10(水) 22:41:54
/usr/share/man/man1/vidcontrol.1.gz:*: warning [p 1, *.*i]: cannot adjust〜


troff: warning [p 1,7.7i]: cannot adjust line
troff: warning [p 1,7.8i]: can't break line

こんなの言ってます。
LANGを指定しても変わりませんでした。
0708名無しさん@お腹いっぱい。2006/05/11(木) 01:22:13
707 はこれまでの質問者と同じ?
っていうか、 .gz というのは gzip で圧縮したファイルだってのは大丈夫?

nroff にせよ troff にせよ、勝手に展開してくれないから、 gzcat なり
less なりで gzip を展開してやらないよね、という流れなのだが、それ理解
できてる?

っていうか何故 troff になってんの?
0709名無しさん@お腹いっぱい。2006/05/11(木) 01:40:40
man の話は自分が使ってる OS のスレでやれ。
0710名無しさん@お腹いっぱい。2006/05/11(木) 04:34:53
>>709
manにフィルターをかけてindexに引っ掛ける話なんですが?

0711名無しさん@お腹いっぱい。2006/05/16(火) 13:36:10
Webクローラのチュートリアルを実行したら
〜[63]:fetching: 1:http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdm&Search=Serach
estwaver in free():error:chunk is already free
こんな文字を吐いてフリーズするのですがどうしたらいいのでしょう?
Ctrl+Cでも解除されません
0712名無しさん@お腹いっぱい。2006/05/16(火) 22:01:20
クローラはまだ安定してないっぽいね。kill -9で殺すしかないかも。
0713名無しさん@お腹いっぱい。2006/05/17(水) 01:20:25
ありがとうございました。
0714名無しさん@お腹いっぱい。2006/05/17(水) 21:25:02
リモートからestmasterのnode追加するにはプロトコルを使うしかないようですが

$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=NewNode

みたくしても

Bad Request (the action is invalid or lack of parameters)

となってしまうです。
ユーザー名oiraとパスワードはブラウザからmaster_uiに入って設定(sつけた)したもので
おいら的には抜かりないつもりだったんですが
どこを間違ったんでしょう?
$ estcmd --version
Hyper Estraier 1.2.4 on Linux
....
な環境です。
07157142006/05/17(水) 21:35:40
事故レス。
ブラウザから試したらまず
大文字node名ダメ。かつラベル省略不可。
ということのようでした。

$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=newnode\&label=new

でうまく行きますね。すまんこ。
0716名無しさん@お腹いっぱい。2006/05/21(日) 13:53:26
Gentoo で portage から HyperEstraier 1.2.6 入れたんですがestcmd gather
で 300 個くらい文書を登録して estcmd optimize したら返ってこない……

Windows の公式バイナリで同じデータためすと 10 秒くらいで返ってくるん
だけどなぁ。ML は文字化けしてて読めないし。
0717名無しさん@お腹いっぱい。2006/05/21(日) 14:30:08
Gentooスレで同じようなこと言ってる奴いなかったか?
とりあえずUSEと同じオプションでソースからmakeして、
make checkが通るかどうか試してみれ
0718名無しさん@お腹いっぱい。2006/05/21(日) 21:32:31
>>716
昔同じようなことになったけど、USE="-bzip2"にしたら正常に動くようになった。
0719名無しさん@お腹いっぱい。2006/05/21(日) 23:14:42
>>717
qdbm 1.8.56, hyperestraier 1.2.6
をとってきて configure & make したら hyperestraier の make check でエラーになりました。

orz% make check
rm -rf casket casket-*
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd create -tr -xl -attr '@uri' seq -attr '@title' str \
-attr '@author' str -attr '@mdate' num -attr '@size' num casket
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=19924487 crnum=0 csiz=0 dknum=0
./estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd put -ws casket ./misc/test001.est
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
./estcmd: INFO: 1 (http://hyperestraier.sourceforge.net/sample.txt): registered
./estcmd: INFO: flushing index words: name=casket dnum=1 wnum=1 fsiz=27266752 crnum=101 csiz=5715 dknum=0
./estcmd: INFO: closing: name=casket dnum=1 wnum=45 fsiz=27266752 crnum=57 csiz=3194 dknum=0
./estcmd: ERROR: casket: database problem
make: *** [check] エラー 1
orz%

>>718
情報 thx です。bzip2 を configure からはずしてもう一度やってみます。
07207192006/05/21(日) 23:45:07
ありがとうございました。手動ビルドで --enable-bzip をはずすと make check が通りました。
また /etc/portage/package.use に hyperestraier -bzip2 でも使えるようになりました。

0721名無しさん@お腹いっぱい。2006/05/22(月) 00:35:05
ユーザガイドによると、bzip2を使うとかなり遅くなるらしく、zlibを進めている
いるけど、なんでgentooのデフォルトはbzip2付きなんだろ。
0722名無しさん@お腹いっぱい。2006/05/25(木) 23:24:02
1.2.7が出たね。
WebクローラからP2Pサーバに分散登録する機能がついた。
かなり大規模な検索エンジンもこれで簡単に作れるようになるのかな。
0723名無しさん@お腹いっぱい。2006/06/06(火) 10:41:41
1.2.8 出たので age
estwaverのhttps対応はいつ?とても便利に使ってるので期待。
0724名無しさん@お腹いっぱい。2006/06/12(月) 19:44:03
@weight属性を全文書につけて順序指定した場合に、
@weightの値が同じ場合、@idでソートされてしまうようなんですが、
これをスコア順にすることってできないんでしょうか?
0725名無しさん@お腹いっぱい。2006/07/03(月) 23:55:29
いつのまにかPerl用API出てたんでage
0726名無しさん@お腹いっぱい。2006/07/11(火) 15:23:45
最近話題ないね。
0727名無しさん@お腹いっぱい。2006/07/11(火) 15:41:41
1.3.2 が出てるじゃん。
ここしばらく頻繁にアップグレードしてる印象があるけど。
0728名無しさん@お腹いっぱい。2006/07/12(水) 21:51:30
作者は最近mixiに入社したらしいね。
0729名無しさん@お腹いっぱい。2006/07/12(水) 22:46:57
はつみみです。
0730名無しさん@お腹いっぱい。2006/07/12(水) 23:03:31
ttp://www.hirax.net/diaryweb/2006/06/03.html
0731名無しさん@お腹いっぱい。2006/07/12(水) 23:21:18
え〜、googleにでもヘッドハントされるんじゃないかと思っていたのに……
なんでそんなところに……
0732名無しさん@お腹いっぱい。2006/07/13(木) 00:10:12
>>731
これ使ったことないけど、そんなに凄い技術なの?
0733名無しさん@お腹いっぱい。2006/07/13(木) 01:03:10
Googleには同じようなことをやっているチームが既にあるわけだし、
多少できる人材が加わったところであまり意味はないような。
それよりは、検索対象のデータをいっぱい持っているけど検索技術が
まだないところに行ってもらった方がよさげ。
0734名無しさん@お腹いっぱい。2006/07/17(月) 22:10:13
WebクローラのSSL対応まだー?
0735名無しさん@お腹いっぱい。2006/07/17(月) 22:26:40
>>734
なにそれ?
Webのクロール機能なんてあるの?
0736名無しさん@お腹いっぱい。2006/07/17(月) 22:38:54
つ ttp://hyperestraier.sourceforge.net/cguide-ja.html
0737名無しさん@お腹いっぱい。2006/07/24(月) 02:50:08
Database::openなんだけど
DRWRITER | DBREADERで読み書きモードでオープンしたら
やっぱりまずい?
検索結果に出てきた文書をそのままoutしてしまいたいんだけど。

試してみると30回ほどやってみてデータの破壊はなかった
0738名無しさん@お腹いっぱい。2006/07/24(月) 08:42:58
DBWRITERだけで読み込みも書き込みもできるよ。
■ このスレッドは過去ログ倉庫に格納されています