トップページunix
987コメント301KB

全文検索エンジンEstraier

レス数が950を超えています。1000を超えると書き込みができなくなります。
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
09049022006/11/26(日) 14:49:48
ただ、同じメールをThunderbirdでも読んでいるんですが、
subjectで検索しても、ちゃんと検索語の含まれる
メールが抽出されるみたいです。
0905名無しさん@お腹いっぱい。2006/11/26(日) 14:50:21
>>903
estraierの問題だと思う。
エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。
0906名無しさん@お腹いっぱい。2006/11/26(日) 15:03:51
>>905
え、それってどの仕様?
0907名無しさん@お腹いっぱい。2006/11/26(日) 15:09:40
>>905
> エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。

それって確定したの? ずいぶん長いこと紛争の種になったポイントだよね?
0908名無しさん@お腹いっぱい。2006/11/26(日) 15:16:03
そんな事したら、空白区切りの言語で問題でるじゃん
いまのところデコードした後、空白の前後が日本語の文字だったら連結すると
かってアプリ側で対処するしかない。
0909名無し募集中。。。2006/11/26(日) 22:14:04
Windows で作成したインデックスを Linux に持っていって
estseek.cgi で検索することはできますか?
やってみると estseek.cgi のトップ画面は出るのですが
検索しようとすると Segmentation Fault します
インデックス化されているファイルのパス名に日本語が入ってると難しいかなぁ...
0910名無しさん@お腹いっぱい。2006/11/30(木) 17:18:35
estseek.cgiがApache上で動きません。Premature end of script headers: estseek.cgiってエラーがでます。
Test.cgiで作ったのはフツーに動いたんですが、何がおかしいんでしょうか?
0911名無しさん@お腹いっぱい。2006/11/30(木) 20:19:50
Apacheのエラーログ見ろ
0912名無しさん@お腹いっぱい。2006/11/30(木) 22:56:33
>>911
そのApacheのエラーログが
>Premature end of script headers: estseek.cgiってエラー
なんじゃねーの?
0913名無しさん@お腹いっぱい。2006/11/30(木) 23:11:09
shellが使えるんだったら、そのディレクトリ上で ./estseek.cgi って直接実行すれば何か分かるかも
0914名無しさん@お腹いっぱい。2006/12/01(金) 00:12:08
estseek.conf の記述ミス説に 100gram
0915名無しさん@お腹いっぱい。2006/12/01(金) 11:49:42
>>911さん>>912さんの通りです。そもそもestseekて多分バイナリですよね?confをミスったんでしょうか?
とにかくコンフを初期設定に戻してやってみます。

0916名無しさん@お腹いっぱい。2006/12/01(金) 12:04:50
どなたか、超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?

因みに、私は、マニュアルの記載
http://hyperestraier.sourceforge.net/intro-ja.html#introduction
>>Hyper Estraierは、以下のライブラリを利用しています。予めそれらをインストールしておいてください。

>>libiconv : 文字コード変換。バージョン1.9.1以降(glibcにも同梱)。
>>zlib : 可逆データ圧縮。バージョン1.2.1以降。
>>QDBM : 組み込み用データベース。バージョン1.8.68以降。

で、既につまづいている状況です。
どなたか。。。
0917名無しさん@お腹いっぱい。2006/12/01(金) 12:12:12
> なお、Windows版のバイナリパッケージには必要なライブラリが全て納められていますので、そちらを使うことをお薦めします。
だってさ。
09189162006/12/01(金) 12:26:20
>>917

 ありがとうございます。
 これは、
・qdbmのwinバイナリパッケージ
 のインストールも、不要と考えてよいのでしょうか?

重ね重ねすいませんが。。
0919名無しさん@お腹いっぱい。2006/12/01(金) 12:27:53
>>918
知らね。
まず入れてみて、動かなかったら考えたら?
09209182006/12/01(金) 12:56:52
>>919

ありがとうございます。
まだ動かせる所までは程遠い状態、かつ、qdbmを入れてみることができるまで程遠い状態ですが、前に進みますね。

あと、どなたか、こんな超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?
0921名無しさん@お腹いっぱい。2006/12/01(金) 18:13:57
つgoogle
09229202006/12/02(土) 09:30:18
>>921

どもです。
予めgoogleで調べたのですが、インストール・設定のメモ等をアップして
くれているHPが見つからなかったんですよ。。
私の探し方が悪いのかも。。
そこで、このスレの利用を思いついたのですよ。
0923名無しさん@お腹いっぱい。2006/12/02(土) 10:59:43
とりあえず公式を熟読して書かれている通りにやってみな
俺がXPで動かしたときは問題なくできたから
0924名無し募集中。。。2006/12/02(土) 14:19:25
hyperestraier-1.4.9-win32.zip ってのを落としてくれば
QDBM とか他のは何もいらない
検索 CGI を動かすのだったら Apache などの Web サーバが必要
09259222006/12/02(土) 22:32:51
>>923 >>924
ありがとうございます。
公式の熟読は、確かに不十分だったかもしれません。気をつけます。
>>QDBM とか他のは何もいらない
は、嬉しいコメントです。実は、この点は、公式の熟読でもわからない点でした。

以前(Hyper・・・前)のestraierは、セットアップ時間30分で十分だったのですが、
Hyperになって、高機能になった分、設定が難しくなったと感じているのは
私だけでしょうか?だからインストールメモのHPが無いのかな、、、と。
でも絶対難しくなってますよね。。。言い訳でした。。。
0926名無しさん@お腹いっぱい。2006/12/02(土) 22:44:07
zip展開するだけで estcmd.exe は動くぞ。
どこが難しいんだ?
0927名無しさん@お腹いっぱい。2006/12/03(日) 00:43:03
難しくないから誰もインストールメモなんて書かないとは思わないのかね?
09289222006/12/03(日) 09:18:36
927
欲嫁。
0929名無しさん@お腹いっぱい。2006/12/04(月) 02:11:15
キーワードをもとにローカル画像を検索したいと思っています。個人用途です。
例えば画像(png、jpgなど)ファイル中にコメントを埋め込んで、それを検索の対象に含める、ということは可能でしょうか?
ユーザガイド読んだら適切なフィルタを持ってくればできそうに思えたのですが、実際に運用してる方に聞きたく書きこみました。
それともこういう場合、コメントはファイルに埋め込むのでなく、別途テキストを用意するのが王道だったりするのでしょうか?

何かコメント頂ければ幸いです
0930名無しさん@お腹いっぱい。2006/12/05(火) 02:13:35
>>929
俺は実際に運用してるわけじゃないが、フィルタさえ用意すれば当然可能。
ファイルそのものにコメント記入フィールドがあるなら、
別途テキストなんか用意するよりファイルに直接埋め込む方が正攻法だべ。
0931名無しさん@お腹いっぱい。2006/12/05(火) 04:44:17
フィルタはこの辺↓使って書くんだろうな。
http://search.cpan.org/dist/Image-ExifTool/
09329292006/12/05(火) 07:45:42
>>930
>>931

お返事ありがとうございます。お言葉に勇気づけられました。ちょっくらやってみます。
以下のような解説を書いてる方もおられましたです。
ttp://module.jp/blog/comment_in_imagefile.html
09339152006/12/07(木) 14:42:34
あきまへん、やっぱり動きません。そもそもestseekがどうあっても文字化けするし・・・
ちなみに大事な要因を書き忘れてました、Windowsでアパッチは2.2.3を使ってます。
09349152006/12/07(木) 15:25:12
何度もすいません、estseek.confの中身がやっぱり問題でしょうか?
replace: file:///www/cgi-bin/{{!}}http://localhost/
でCGIの設置場所がCのwwwのcgi-binに掘り込んでるんですが、正しくはどう
0935名無しさん@お腹いっぱい。2006/12/07(木) 16:12:19
コマンドプロンプトでestseek.cgiを直接実行したらどうなる?
09369152006/12/07(木) 16:39:26
Status: 500 Internal Server Error
Content-Type: text/plain; charset=UTF-8

Error: the configuration file is missing.
ってでました。
0937名無しさん@お腹いっぱい。2006/12/07(木) 18:05:26
Configuration file(要はestseek.conf)がないよー、って言ってるじゃん
ファイル名が微妙に間違ってるとかない?
これ以上はエスパーが降臨しないと分からんな
0938名無しさん@お腹いっぱい。2006/12/07(木) 22:03:07
>>936
どう見ても estseek.conf が存在しないとしか思えませんが
09399152006/12/13(水) 19:21:19
すいません。場所が違いました。
Status: 500 Internal Server Error
Content-Type: text/plain; charset=UTF-8

Error: indexname is undefined.
となりました。
コンブの記述ミスでしょうか?
0940名無しさん@お腹いっぱい。2006/12/13(水) 20:22:37
だからー
出てくるメッセージ読めって
Error: indexname is undefined -> エラー:indexnameが定義されてません

Windows版バイナリパッケージを解凍した素のestseek.cgiを実行したって
Error: the index is missing or broken
って出る(バイナリパッケージにいきなりcasketなんていうフォルダはない
から当たり前)のに、undefined って出てるんだから、完全にコンブ(これも
新しい俺用語だな)の記述ミスだろ
09419152006/12/13(水) 22:15:15
>>940すいません。。。そこからコンブがまずいとわかりませんでした↓↓
コンブの中身はこうししてるんですが・・・
どこがまずいですか?
環境はC:\www\casketにCASKETがあって、C:\www\public_htmlにindex.htmlやestseek.*やtest.cgiがある感じです。
加えてC:\www\cgi-binにもindex.htmlやestseek.*やtest.cgiがある感じです。
以下の中身はcgi-binの方です。

indexname: /www/casket
・・・
replace: file://C|/www/public_html/{{!}}http://localhost/
replace: /index\.html?${{!}}/
・・・
0942名無しさん@お腹いっぱい。2006/12/13(水) 23:23:36
それを見る限り、indexname: /www/casket って*確かに*定義してあるよね
でも、estseek.cgi を実行すると undefined ってエラーが*なぜか*出てるんだよ
何かきっと単純な見落としがあるんだろうけど、それが何かはエスパーが降臨しないと分からん

試しにWindows版バイナリパッケージをもう一度落としてきて、それをC:\hyperestraier に解凍して、
C:\hyperestraier\estseek.conf の一行目を indexname: c:/www/casket にして、コマンドプロンプト
から、
C:\hyperestraier> estseek.cgi [ENTER]
って実行してみな
これが動かなかったら PC を窓から投げ捨てろ
動いたとしたら地道に違いを見つければきっと解決できる
0943名無しさん@お腹いっぱい。2006/12/13(水) 23:28:53
あ、ちなみに estseek.cgi が動くと言っても、コマンドプロンプトから実行しても HTML がずらずらーーっと出てくるだけだからな
CGI としてブラウザから操作できるかどうかは、apache の設定とかも絡んでくるから別次元の話
0944名無しさん@お腹いっぱい。2006/12/14(木) 01:01:12
>>941
> C:\www\casketにCASKETがあって
だったら何で
indexname: /www/casket
なの?
indexname: C:\www\casket
にしなければならないんじゃネーノ?

あと、その casket が estwaver で作ったものであるなら、
indexname は 〜/casket ではなく 〜/casket/_index にしないと動かないわけだが
09459152006/12/14(木) 09:52:34
>>942,943,944さん、ありがとうございました。
ただestcmdで作ったものなんでスけどね。。。
waverで作って、やってみます。
動かなかったら、新品のPCを最上階から投げ捨てる覚悟を作ってやります!!
09469152006/12/14(木) 09:53:15
サゲ忘れ
0947名無しさん@お腹いっぱい。2006/12/15(金) 01:53:32
>>945
で、
indexname: C:\www\casket
は試したのか?

誰も waver で作り直せなんて言ってないだろが。

とっとと窓から投げ捨てろ
0948名無しさん@お腹いっぱい。 2007/02/18(日) 19:07:15
今月発売の Software Design で HyperEstraier 特集
age とく
0949名無しさん@お腹いっぱい。2007/02/18(日) 21:37:07
>>948 あ、それおいらも今日立ち読みした。
でも、記事は動作原理とインストールして走らすまでの
話が主で、Namazu みたいに使いこなしのこなれた
枯れたシステムという感じではないね、やっぱり。
へたれな おいらは mew 以外ではまだしばらく
様子見しまつ。
0950名無しさん@お腹いっぱい。2007/02/20(火) 11:06:30
estwaver で pdf ファイルのインデクシングできないぞ。
_conf で denyrx: から pdfを除外して、
typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
を入れても、estwaver crawl xxx すっと

2007-02-20T01:47:06Z INFO fetching: 1: http://.../MS0024320.pdf
2007-02-20T01:47:06Z INFO ignored: 200: http://.../MS0024320.pdf

となる。なぜだろう?
0951名無しさん@お腹いっぱい。2007/02/20(火) 11:17:34
pdftotextが入ってないんじゃない?
estfxpdftotextはシェルスクリプトで、内部的にpdftotextを読んでるだけだから。
09529502007/02/20(火) 11:23:44
>>951 estcmdはちゃんと動くからその問題ではないす。
estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -sd -cm casket /var/..
これは問題なくうごく。

ソースを追うとさ、estwaver が呼んでいる fetch_document が
status 200 を返しているんだな。てことは、est_url_shuttle
が200を返しているんだけど、その先が thread になってて
ようわからん。
09539502007/02/20(火) 12:36:47
自己解決しますた

× typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
○ typerule: ^application/pdf${{!}}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml

ttp://hyperestraier.sourceforge.net/cguide-ja.html のタイプミスに気が塚なんだ onz
0954名無しさん@お腹いっぱい。2007/03/06(火) 13:11:37
えす採れ1.4.10おめ。
0955名無しさん@お腹いっぱい。2007/03/12(月) 12:45:54
誰かこれ応募してみれ。
http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11733369362470439636&focus=1
0956名無しさん@お腹いっぱい。2007/03/15(木) 05:33:29
学生じゃないんで泣く泣くあきらめる
0957名無しさん@お腹いっぱい。2007/03/16(金) 23:03:34
とっつぁんは学生の仕事とりあげちゃいかん。
0958名無しさん@お腹いっぱい。2007/03/17(土) 13:20:59
学生の仕事はきちんと単位をとって論文書いて卒業することだw
0959名無しさん@お腹いっぱい。2007/03/26(月) 01:11:33
WINDOWSの話で恐縮なのですが、質問させてください。
pukiwikiのデータのインデックスをestwaverで作ろうとしたのですが、
casketの_confでseedで指定しているページのインデックスしか作ることが
できませんでした。(リンクをたどってくれない。)
通常のhtmlのページは取り込むことができます。
pukiwikiのようなURLでリンクが張られるページのインデックスを、
estwaverで作るにはどうしたらいいのでしょうか。
denyrxなどで弾かれているかと思い、制限がかかりそうなところは
全てコメントアウトするなどしたのですが、変わりませんでした。
またseeddepth,maxdepthは20にしています。

ヒントだけでも結構ですので、もしわかる方いましたらよろしくお願いします。
0960名無しさん@お腹いっぱい。2007/03/26(月) 02:18:50
>>959
denyrxで弾かれてるしかないだろうな
0961名無しさん@お腹いっぱい。2007/03/26(月) 09:59:59
denyrxでlocalhostが入ってるからじゃね?
09629592007/03/26(月) 19:00:49
>>960,961
レスどうもありがとうございます。
denyrx、noidrxは全てコメントアウトしているのですがだめでした。

その後いろいろ試行錯誤していたのですが、偶然取り込むことができました。
前に取り込めたhtmlも動作がおかしいようだったので、unittestを
してみたところ、_confが上書きされてしまいました。
そこで改めて設定をやり直したところ、ちゃんと動作しました。
_conf以外にはseedをphpの吐くページではなく、その上にphpにリンクを
張っているhtmlを作るという変更をしました。
あまり原因が明確ではないのが気持ち悪いですが・・・

付き合ってくださった方々、どうもありがとうございました。
0963名無しさん@お腹いっぱい。2007/03/26(月) 23:30:56
一生懸命いじっていた _conf は全く別の場所のファイルだった説を唱えてみる
0964名無しさん@お腹いっぱい。2007/03/28(水) 00:46:28
次スレはHyperEstraierでいいよね?
0965名無しさん@お腹いっぱい。2007/03/28(水) 06:39:47
おう、次スレの時期か。
このスレ、ここまで来るのに2年以上かかったのね。
0966名無しさん@お腹いっぱい。2007/03/28(水) 08:24:07
スレの速度もHyperになりましたか。
0967名無しさん@お腹いっぱい。2007/04/15(日) 19:12:10
Win用のバージョン1.4.10でファイル検索システム用にノードサーバを立ち上げて
検索インターフェース(search_ui)で検索をかけたのですが検索結果のリンク先が文字化けします
estseek.confの「showreal」のような設定はできますか?
あるいはestseek.cgiをインターフェースに使うことはできるのでしょうか?
0968名無しさん@お腹いっぱい。2007/04/16(月) 10:07:18
うう、*.tex とかを読ませる方法がわからん・・・
0969名無しさん@お腹いっぱい。2007/04/16(月) 11:30:10
つ「マニュアル」
0970名無しさん@お腹いっぱい。2007/04/16(月) 19:25:09

そうなんですが、正直なところマニュアル(uguide-ja)は、
入門者には情報が多すぎるのと専門用語が多くてわかりにくいです。
もうちょっと腰を落ちつけて読みます。


0971名無しさん@お腹いっぱい。2007/04/16(月) 20:30:45
んなこたねえだろ
0972名無しさん@お腹いっぱい。2007/04/16(月) 22:43:41
いややっぱりわからんです。私の頭悪すぎなのでしょう。
0973名無しさん@お腹いっぱい。2007/04/16(月) 22:52:38
>>972
HEのは、特徴的な文体ではあるな。
しかし、ほかのソフトマニュアル
のほうがうんと読みやすい、てことも
ないわけだし。
0974名無しさん@お腹いっぱい。2007/04/16(月) 23:14:00
estcmd gather -il ja -sd casket ~/foo/*.tex
でもだめ、
find ~/foo -iname '*.tex' | estcmd gather -il ja -sd casket -
でもだめ。

なんか大きな間違いをしてますか?

> 特に構造のない文字列です。デフォルトでは、ファイル名の接尾辞が「.txt」「.text
> 」「.asc」の場合にプレーンテキストとして扱われます。

はわかるんですが、デフォルト以外はどうしたらいいのかの説明がないから
迷ってしまう・・・

>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリス
>トを読み込みます。

これもわかりにくかった。

-fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切
りで複数の接尾辞を指定できます。「*」だと全てのファイルに一致します。コマ
ンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@
」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれ
でもない場合は文書ドラフトとして解析されます。このオプションは複数回指定で
きます。

ここらへんなんでしょうが、私には意味わからんです。
この文章のあとにexampleが欲しいと思います。


0975名無しさん@お腹いっぱい。2007/04/16(月) 23:18:27
-fx の事例があるのは「外部コマンドのフィルタ」の部分で、
ここでもふつうのテキストをどうすれば読ませられるかってのは
わからない。うーん。

なんというか、もうひとつ流行らない理由がわかりました。
googleでも解説ページのようなものがひっかからないし。うーん。
なんか貢献したいんですが。
0976名無しさん@お腹いっぱい。2007/04/16(月) 23:36:52
*.texを普通のテキストとして読ませるなら
% estcmd create tex_db
% find /usr/share/doc/ -name '*.tex' | estcmd gather -ft -fz tex_db -
みたいな感じでどう?
0977名無しさん@お腹いっぱい。2007/04/16(月) 23:40:27
あ、ごめん、'-fz'とかいらないわ。
'-ft'が読み込んだファイル全部をテキストファイルとして
扱うってオプションです。
0978名無しさん@お腹いっぱい。2007/04/17(火) 07:25:55
なるほど、そういうふうにするのですか。助かります。
ありがとうございます。
0979名無しさん@お腹いっぱい。2007/04/17(火) 19:58:52
御礼に次スレ立てておきました。
http://pc11.2ch.net/test/read.cgi/unix/1176807372/
09807742007/04/22(日) 11:22:42
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?clip=8
こちらのサイトでtestを検索
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?phrase=text&perpage=10&clip=8&navi=0&attr=&order=
すると関連キーワードとして
RelatRelated terms: text, rowspan, style, align, center, color, background, key
というふうに出てきますが、これって配布されているCGI、estseek.cgiでも出すようにできますか??
いろいろ調べているんですが、方法が一向に分からず。
ご存知の方いらっしゃったら教えて下さい。お願いします。
0981名無しさん@お腹いっぱい。2007/04/23(月) 07:01:46

http://hyperestraier.sourceforge.net/uguide-ja.html#estseek
> 設定ファイルの書式
> relkeynum : 表示する関連語の数を指定します。

では駄目だったということ?
・「いろいろ調べている」がいったいどこを調べたのか?
・実際に試した事
くらいは書こう。
0982名無しさん@お腹いっぱい。2007/04/24(火) 22:21:29
複数のインデックスを作っておいて、同時に検索できるのでしょうか?
estseek.confのindexname: 部分では複数の記述ができませんでした。
0983名無しさん@お腹いっぱい。2007/04/24(火) 22:57:29
estseek では無理
ノードマスタを叩け
0984名無しさん@お腹いっぱい。2007/04/25(水) 22:37:44
>>983
ありがとうございます。

DesktopHEを見ていると、対象を複数書いても1つのインデックス。
普通にgatherだけでは作れないかもしれないですが、こちらの方法も調べてみます。
0985名無しさん@お腹いっぱい。2007/04/26(木) 02:50:53
983だと>>967の問題が...
0986名無しさん@お腹いっぱい。2007/04/27(金) 07:31:49
最近使い始めたのですが、Windowsで.java,.sqlを検索対象にするため、T@myfilterとし
myfilter.batを作って、
type %1 > %2
としました。効率良い方法でしょうか?
0987名無しさん@お腹いっぱい。2007/04/27(金) 09:08:24
-ft でいいじゃん。
レス数が950を超えています。1000を超えると書き込みができなくなります。