全文検索エンジンEstraier
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0689名無しさん@お腹いっぱい。
2006/05/08(月) 19:30:35なってるの?
あと、 685 で /usr/share/share/man て書いてあるけど /usr/share/man の
誤記だよね?
0690名無しさん@お腹いっぱい。
2006/05/08(月) 21:39:19# /usr/local/share/filter/estfxmantotxt /usr/share/man/ja/man1/ls.1.gz
/usr/local/share/filter/estfxmantotxt: Command not found.
# /usr/local/share/hyperestraier/filter/estfxmantotxt /usr/share/man/ja/man1/ks.1.gz
/usr/local/share/hyperestraier/estfxmantotxt ulimit: too many arguments
となります
>>689
>/usr/share/share/man て書いてあるけど /usr/share/man の〜
誤記です
# manpath
/usr/share/man:/usr/local/man:/usr/X11R6/man:/usr/share/openssl/man:
/usr/local/lib/perl5/5.8.8/man:/usr/local/lib/perl5/5.8.8/perl/man
以上です
0691名無しさん@お腹いっぱい。
2006/05/08(月) 22:00:14ulimitの行を消せばいいんでない?
0692名無しさん@お腹いっぱい。
2006/05/08(月) 22:56:10>/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
>ulimitの行を消せばいいんでない?
メッセージは表示されませんでしたが、結果はかわりません
0693名無しさん@お腹いっぱい。
2006/05/09(火) 00:34:12はどうでしょ。
0694名無しさん@お腹いっぱい。
2006/05/09(火) 01:05:50No manual entry for /usr/share/man/ja/man1/ls.1.gz
以上です。
ちなみに/usr/share/man/ja/man1/ls.1.gzは存在してます
0695名無しさん@お腹いっぱい。
2006/05/09(火) 11:35:46まず、 estfxmantotxt は内部で man を呼んでるから、まず
man ls
とかして見えることを確認する。
しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
来なかったんだろ。
それから、 grep するだけじゃなくて、
〜 | xargs basename | perl -pe 's/(.*)\.(\d)(.gz)?/\2 \1/' | 〜
みたいな変換を噛まして /usr/share/man/man1/ls.1.gz から 1 ls を作りだす。
もしくは estfxmantotxt に「フルパスっぽかったら man コマンドではなく
nroff -man を使う」的なスクリプトを書くか。
0696名無しさん@お腹いっぱい。
2006/05/09(火) 12:05:39フィルタの中のmanの行を
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
に変えるってのはどうでしょ。
nroffは入ってるよね? which nroff
0697名無しさん@お腹いっぱい。
2006/05/09(火) 14:54:18>来なかったんだろ。
なんでなんでしょうねぇ〜?
OSのインストールで必要最小限のファイルしか選定してないからかもしれません。
只今、別PC(man manが引けるPC)をアップデート&hyperestraierインストールしてます。
0698名無しさん@お腹いっぱい。
2006/05/10(水) 11:19:54make checkでエラーが出るんだが。
./estcmd: INFO: 7 (/opt/inst/hyperestraier-1.2.4/doc/index.html): registered
./estcmd: ERROR: exhausting memory
./estcmd: ERROR: /opt/inst/hyperestraier-1.2.4/doc/index.html: no such item
./estcmd: INFO: flushing index words: name=casket dnum=5 wnum=1604 fsiz=27316309 crnum=226 csiz=12856 dknum=0
./estcmd: INFO: closing: name=casket dnum=5 wnum=1733 fsiz=27319842 crnum=0 csiz=0 dknum=0
make: *** [check] Error 1
0699名無しさん@お腹いっぱい。
2006/05/10(水) 14:28:17一応動いてますが
0700678
2006/05/10(水) 16:49:26引けるようになりました。
#whice nroff
/usr/bin/nroff
estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket -
〜〜
troff: fatal error: can't '/usr/local/man/man1/cdcodec.1':no such file or
directory
estcmd: INFO closing: mame=casket dnum=0 wnum=0 fsiz=68698748 crnum=0
csiz=0 dknum=0
以上です。
マシンに言語(eucJP)を設定していないのですが、関係ありますでしょうか?
PS昨日アップデート中、HDDが逝ってしまいました><
0701名無しさん@お腹いっぱい。
2006/05/10(水) 17:40:45在するの? っていうかそのパスなら中身は英語だと思うし、であれば言語は
関係ない。
cdcodec.1 が何かのシンボリックリンクになっていて、リンク先が消えている
のにこのファイルだけ消しわすれ、とかそういう事態ではないかと推測するが。
0702名無しさん@お腹いっぱい。
2006/05/10(水) 17:42:57っていうか存在するのは 〜cbcodec.1.gz じゃないの?
何をやったのかいまひとつよくわからん。estfxmantotxt の中にじかに各ファ
イルのパスが書いてあるわけじゃないよね?
0703678
2006/05/10(水) 18:07:4360行目
nroff -man /usr/local/man/man1/cbcodec.1.gz | col -b | tr '\t' ' ' | output
に書き換えて
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket
/usr/local/man/man1/cbcodec.1.gz:*: warning {p 1,****
〜
〜
こんなん言ってます
0704名無しさん@お腹いっぱい。
2006/05/10(水) 18:16:19nroff -man "$infile" | col -b | tr '\t' ' ' | output
にすれば、各々のmanファイルを読めるし、さらに、
less "$infile" | nroff -man | col -b | tr '\t' ' ' | output
とすれば、gzipの場合は適切に解凍してくれるんじゃないかな。
lessが必要だけど。
0705名無しさん@お腹いっぱい。
2006/05/10(水) 20:46:070706名無しさん@お腹いっぱい。
2006/05/10(水) 20:56:59lessなら自動判定してくれる。
0707名無しさん@お腹いっぱい。
2006/05/10(水) 22:41:54〜
〜
troff: warning [p 1,7.7i]: cannot adjust line
troff: warning [p 1,7.8i]: can't break line
こんなの言ってます。
LANGを指定しても変わりませんでした。
0708名無しさん@お腹いっぱい。
2006/05/11(木) 01:22:13っていうか、 .gz というのは gzip で圧縮したファイルだってのは大丈夫?
nroff にせよ troff にせよ、勝手に展開してくれないから、 gzcat なり
less なりで gzip を展開してやらないよね、という流れなのだが、それ理解
できてる?
っていうか何故 troff になってんの?
0709名無しさん@お腹いっぱい。
2006/05/11(木) 01:40:400710名無しさん@お腹いっぱい。
2006/05/11(木) 04:34:53manにフィルターをかけてindexに引っ掛ける話なんですが?
0711名無しさん@お腹いっぱい。
2006/05/16(火) 13:36:10〜[63]:fetching: 1:http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdm&Search=Serach
estwaver in free():error:chunk is already free
こんな文字を吐いてフリーズするのですがどうしたらいいのでしょう?
Ctrl+Cでも解除されません
0712名無しさん@お腹いっぱい。
2006/05/16(火) 22:01:200713名無しさん@お腹いっぱい。
2006/05/17(水) 01:20:250714名無しさん@お腹いっぱい。
2006/05/17(水) 21:25:02$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=NewNode
みたくしても
Bad Request (the action is invalid or lack of parameters)
となってしまうです。
ユーザー名oiraとパスワードはブラウザからmaster_uiに入って設定(sつけた)したもので
おいら的には抜かりないつもりだったんですが
どこを間違ったんでしょう?
$ estcmd --version
Hyper Estraier 1.2.4 on Linux
....
な環境です。
0715714
2006/05/17(水) 21:35:40ブラウザから試したらまず
大文字node名ダメ。かつラベル省略不可。
ということのようでした。
$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=newnode\&label=new
でうまく行きますね。すまんこ。
0716名無しさん@お腹いっぱい。
2006/05/21(日) 13:53:26で 300 個くらい文書を登録して estcmd optimize したら返ってこない……
Windows の公式バイナリで同じデータためすと 10 秒くらいで返ってくるん
だけどなぁ。ML は文字化けしてて読めないし。
0717名無しさん@お腹いっぱい。
2006/05/21(日) 14:30:08とりあえずUSEと同じオプションでソースからmakeして、
make checkが通るかどうか試してみれ
0718名無しさん@お腹いっぱい。
2006/05/21(日) 21:32:31昔同じようなことになったけど、USE="-bzip2"にしたら正常に動くようになった。
0719名無しさん@お腹いっぱい。
2006/05/21(日) 23:14:42qdbm 1.8.56, hyperestraier 1.2.6
をとってきて configure & make したら hyperestraier の make check でエラーになりました。
orz% make check
rm -rf casket casket-*
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd create -tr -xl -attr '@uri' seq -attr '@title' str \
-attr '@author' str -attr '@mdate' num -attr '@size' num casket
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=19924487 crnum=0 csiz=0 dknum=0
./estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd put -ws casket ./misc/test001.est
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
./estcmd: INFO: 1 (http://hyperestraier.sourceforge.net/sample.txt): registered
./estcmd: INFO: flushing index words: name=casket dnum=1 wnum=1 fsiz=27266752 crnum=101 csiz=5715 dknum=0
./estcmd: INFO: closing: name=casket dnum=1 wnum=45 fsiz=27266752 crnum=57 csiz=3194 dknum=0
./estcmd: ERROR: casket: database problem
make: *** [check] エラー 1
orz%
>>718
情報 thx です。bzip2 を configure からはずしてもう一度やってみます。
0720719
2006/05/21(日) 23:45:07また /etc/portage/package.use に hyperestraier -bzip2 でも使えるようになりました。
0721名無しさん@お腹いっぱい。
2006/05/22(月) 00:35:05いるけど、なんでgentooのデフォルトはbzip2付きなんだろ。
0722名無しさん@お腹いっぱい。
2006/05/25(木) 23:24:02WebクローラからP2Pサーバに分散登録する機能がついた。
かなり大規模な検索エンジンもこれで簡単に作れるようになるのかな。
0723名無しさん@お腹いっぱい。
2006/06/06(火) 10:41:41estwaverのhttps対応はいつ?とても便利に使ってるので期待。
0724名無しさん@お腹いっぱい。
2006/06/12(月) 19:44:03@weightの値が同じ場合、@idでソートされてしまうようなんですが、
これをスコア順にすることってできないんでしょうか?
0725名無しさん@お腹いっぱい。
2006/07/03(月) 23:55:290726名無しさん@お腹いっぱい。
2006/07/11(火) 15:23:450727名無しさん@お腹いっぱい。
2006/07/11(火) 15:41:41ここしばらく頻繁にアップグレードしてる印象があるけど。
0728名無しさん@お腹いっぱい。
2006/07/12(水) 21:51:300729名無しさん@お腹いっぱい。
2006/07/12(水) 22:46:570730名無しさん@お腹いっぱい。
2006/07/12(水) 23:03:310731名無しさん@お腹いっぱい。
2006/07/12(水) 23:21:18なんでそんなところに……
0732名無しさん@お腹いっぱい。
2006/07/13(木) 00:10:12これ使ったことないけど、そんなに凄い技術なの?
0733名無しさん@お腹いっぱい。
2006/07/13(木) 01:03:10多少できる人材が加わったところであまり意味はないような。
それよりは、検索対象のデータをいっぱい持っているけど検索技術が
まだないところに行ってもらった方がよさげ。
0734名無しさん@お腹いっぱい。
2006/07/17(月) 22:10:130735名無しさん@お腹いっぱい。
2006/07/17(月) 22:26:40なにそれ?
Webのクロール機能なんてあるの?
0736名無しさん@お腹いっぱい。
2006/07/17(月) 22:38:540737名無しさん@お腹いっぱい。
2006/07/24(月) 02:50:08DRWRITER | DBREADERで読み書きモードでオープンしたら
やっぱりまずい?
検索結果に出てきた文書をそのままoutしてしまいたいんだけど。
試してみると30回ほどやってみてデータの破壊はなかった
0738名無しさん@お腹いっぱい。
2006/07/24(月) 08:42:580739名無しさん@お腹いっぱい。
2006/07/24(月) 21:34:04トンクス。
0740名無しさん@お腹いっぱい。
2006/07/27(木) 21:09:15検索結果を重要度が高い順に並べたりしてくれるような機能ってありますか?
msearchを使っているのですが、更新が新しいもの順とか、アルファベット順とか
そんな機能しかないのです。
0741名無しさん@お腹いっぱい。
2006/07/27(木) 21:27:27はい
0742740
2006/07/27(木) 23:13:06導入検討します
0743名無しさん@お腹いっぱい。
2006/07/31(月) 14:19:32ページの<title>タグとか<h>タグとかを見てたりするの?
0744名無しさん@お腹いっぱい。
2006/07/31(月) 17:37:11ヒント ユーザーガイド
0745名無しさん@お腹いっぱい。
2006/07/31(月) 17:49:42て、テキストをぜんぶくっつけたものとして取り込んでいると考えてさしつかえない。
0746名無しさん@お腹いっぱい。
2006/08/01(火) 00:02:130747名無しさん@お腹いっぱい。
2006/08/01(火) 02:21:59読んでる部分はある。titleと、、、あとなんだっけ?
0748名無しさん@お腹いっぱい。
2006/08/01(火) 02:50:24metaとか見てる筈。でもそれくらい。
title は @title 属性にもなるし、本文にも隠しテキストとして入っている。
という話はややっこしいので、 743 にはああ書いた方が伝わると思ったんで
あのように書いた。少なくとも h1 とかで重要度とかいうのは考えてないです
よという感じ。
そもそも 743 の考えている重要度ってのがおれにはよくわかってないんですが。
基本的には H.E. では単語の重要度には Tf-Idf を使ってるよ、てのが答えに
なっているのかな。
0749名無しさん@お腹いっぱい。
2006/08/01(火) 03:13:490750名無しさん@お腹いっぱい。
2006/08/01(火) 07:22:46estcmd gatherでもだけど。
0751名無しさん@お腹いっぱい。
2006/08/01(火) 20:36:060752名無しさん@お腹いっぱい。
2006/08/01(火) 21:22:350753名無しさん@お腹いっぱい。
2006/08/04(金) 07:36:15これは普通(マニュアル通り)に記述してインデックス作成すれば検索できるように
なるのでしょうか?
マニュアルにある「若者たち」をやってみたのですが、検索されません。
どうしたらいいでしょうか?
0754名無しさん@お腹いっぱい。
2006/08/04(金) 09:01:44インデックスを作った時の操作が間違ってるとした言えない。
せめて、実行したコマンドを張り付けるとか、ログを張り付けるとか、実行環境について書くとかしませう。
0755名無しさん@お腹いっぱい。
2006/08/04(金) 15:49:18# estcmd put casket /home/date.est
estcmd: ERROR: casket:invalid argument
# estcmd version
Hyper Estraier 1.3.4 on FreeBSD
date.estはUTF-8で記述してあります。
実行前には普通にインデックスをは作成しました。
0756名無しさん@お腹いっぱい。
2006/08/04(金) 23:34:300757名無しさん@お腹いっぱい。
2006/08/04(金) 23:46:21@urlじゃだめだよ。それでダメなら、date.estの中身を見せてみ。
0758名無しさん@お腹いっぱい。
2006/08/05(土) 04:28:10ありがとうございます。登録する事が出来ました。@uriの記述でした。
文書ドラフト形式の登録の場合、ファイル毎に登録しなければならないでしょうか?
一括で登録する方法ってありませんでしょうか?
よろしくお願いします。
0759名無しさん@お腹いっぱい。
2006/08/05(土) 04:49:51文書ドラフトであってもestcmd gatherで登録できる
0760名無しさん@お腹いっぱい。
2006/08/16(水) 10:17:260761名無しさん@お腹いっぱい。
2006/08/17(木) 20:42:06ファイル名をつけると
# 1;2c1;2c1〜
と表示します
ファイル名無しだとフリーズするのですが、どうすればいいのでしょうか?
0762名無しさん@お腹いっぱい。
2006/08/18(金) 05:22:140763名無しさん@お腹いっぱい。
2006/08/18(金) 14:43:030764名無しさん@お腹いっぱい。
2006/08/18(金) 18:17:53ありがとうございます。
標準入力ってどんなの?
普通のHTML文章じゃダメなのかな?
0765名無しさん@お腹いっぱい。
2006/08/18(金) 21:37:48お前の理解力に合わせて言うとキーボードからの入力待ち状態だと思ってさしつかえない。
っていうか勉強しろ。
ちなみに、 fh をつければ、ちゃんと HTML として解釈してくれる。
0766名無しさん@お腹いっぱい。
2006/08/18(金) 21:45:05コマンドオプションにfhをつけてるが?
0767名無しさん@お腹いっぱい。
2006/08/19(土) 20:44:11CygwinでなくてネイティブWin32版が出てる。
0768名無しさん@お腹いっぱい。
2006/08/20(日) 09:37:25WinXP以降ならば
@echo off
for %%A IN ("%ESTORIGFILE%") DO echo "%%~nA" > "%2"
0769名無しさん@お腹いっぱい。
2006/09/10(日) 00:27:530770名無しさん@お腹いっぱい。
2006/09/13(水) 18:03:110771名無しさん@お腹いっぱい。
2006/09/13(水) 18:57:120772名無しさん@お腹いっぱい。
2006/09/14(木) 01:40:58変更点とかってどうやって解るの?
0773名無しさん@お腹いっぱい。
2006/09/14(木) 10:43:16それ漏れも知りたい。
ほぼ全てのリリースでqdbmの更新が必要だからな。
0774名無しさん@お腹いっぱい。
2006/09/14(木) 11:05:50たいていの更新ではファイル形式じたいは変わってないので読み書きできると
思う。なんでそのくせ最新版を要求するのかはよくわからない。
qdbm のバージョンアップに伴い旧形式で読み書きできなくなるときは、作者
の人がそのような注意をアナウンスのときにしている気がする。
けれどそれは何も保証するものではないなあ。
0775名無しさん@お腹いっぱい。
2006/09/14(木) 11:18:150776名無しさん@お腹いっぱい。
2006/09/14(木) 13:35:46(余所で再利用することを考えて?)H.E.の外部に出しておくためのライブラリとしての側面があるからねえ。
0777名無しさん@お腹いっぱい。
2006/09/14(木) 14:47:01HyperEstraierの略だったのね^^
でも意味わからなぁ〜い
まだまだ未熟ですがご指導お願いいたします。
0778名無しさん@お腹いっぱい。
2006/09/14(木) 23:23:460779名無しさん@お腹いっぱい。
2006/09/15(金) 11:49:520780名無しさん@お腹いっぱい。
2006/09/15(金) 15:03:07H.E. 側で安定したら qdbm 側に反映するとかー。
0781名無しさん@お腹いっぱい。
2006/09/15(金) 17:46:10せいぜい最新版にしたときのコンパイルがちょびっと楽になるというくらい?
別途に qdbm が欲しい人にとってはかえって面倒なだけだし。
0782名無しさん@お腹いっぱい。
2006/09/15(金) 22:10:21それに、ダウンロードする回数も1回で済む。
デメリットに関しては>>781の言う通りだと思う。
0783名無しさん@お腹いっぱい。
2006/09/17(日) 07:52:41case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
0784名無しさん@お腹いっぱい。
2006/09/17(日) 14:32:50case 53: name = "超迷子さんのすきゃんてぃ"; break;
作者の世代がなんとなくわかるな。
0785名無しさん@お腹いっぱい。
2006/09/18(月) 11:50:160786名無しさん@お腹いっぱい。
2006/09/18(月) 16:54:120787名無しさん@お腹いっぱい。
2006/09/20(水) 17:21:39インターフェイルに接続するときに
http://localhost:1978/master_ui等でブラウザからアクセスするのですが
これはポートポート番号1978を使って接続していますよね?
nmapで見てみたら1978は表示しないのですが何ででしょう?
0788名無しさん@お腹いっぱい。
2006/09/20(水) 17:36:30nmap はデフォルトでスキャンするポートに含まれてないからじゃないの。
-p1978 すれば出てくるでしょ。
■ このスレッドは過去ログ倉庫に格納されています