全文検索エンジンEstraier
レス数が950を超えています。1000を超えると書き込みができなくなります。
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0855名無しさん@お腹いっぱい。
2006/10/12(木) 18:39:140856名無しさん@お腹いっぱい。
2006/10/13(金) 20:27:250857名無しさん@お腹いっぱい。
2006/10/13(金) 21:37:470858名無しさん@お腹いっぱい。
2006/10/14(土) 01:05:020859名無しさん@お腹いっぱい。
2006/10/14(土) 03:46:13libmecabのpthread&mmapまわりか、libqdbmのガベコレか、どっちかが臭い(たぶん前者)
0860名無しさん@お腹いっぱい。
2006/10/14(土) 10:49:53一般ユーザ向けのソフトじゃないでしょ
いきなり何いってるんだ?
0861名無しさん@お腹いっぱい。
2006/10/14(土) 10:54:570862名無しさん@お腹いっぱい。
2006/10/16(月) 18:36:44結果のカスタマイズはできませんか?
0863名無しさん@お腹いっぱい。
2006/10/16(月) 20:03:33ユーザーガイド読めよ!
0864名無しさん@お腹いっぱい。
2006/10/17(火) 15:15:31検索すると、エラー処理部分の<title>が表示されちゃったり、キーワード「エラー」で全件ヒットしたりしてます。
こんな時はクローラー動かすしかないですかね?
フィルタは、さっぱりわかりませんし。
0865名無しさん@お腹いっぱい。
2006/10/17(火) 15:39:44質問もまもともにできないの?
0866名無しさん@お腹いっぱい。
2006/10/17(火) 16:54:35・CGIスクリプトをそのまま H.E. につっこんでいる
・しかも HTML ファイルとして処理させている
・そうするとスクリプト中の正規の処理のパートと、エラー処理などの部分と、両方とも H.E. に1つのドキュメントに入ってしまう
・クローラを使って HTTP 経由で CGI の吐いた HTML を処理するしか方法はないのだろうか?
・フィルタは理解する気がありません
これであってる?
0867名無しさん@お腹いっぱい。
2006/10/17(火) 17:45:48cgi自体をデーターとして取り込み操作してるから出来ないんだよ!
頭使え!
俺だったらestファイルで読み込む方法を取るな
0868名無しさん@お腹いっぱい。
2006/10/20(金) 00:22:40estseek.conf と estseek.tmpl でできる以上のカスタマイズは無理っぽい。
俺も PREV 1 2 3 4 NEXT とか
右下に英語で小さく表示されるのが嫌だったので変更したかったんだが、
estseek.c のソース見たらその辺はハードコーディングされてて
テンプレートとかでカスタマイズできるように見えなかった。
というわけで Perl で API 叩くフロントエンド書いたよ。
Namazu のテンプレートなんかよりずっと柔軟なカスタマイズができるようになった。
API マンセー
0869名無しさん@お腹いっぱい。
2006/10/20(金) 10:17:490870名無しさん@お腹いっぱい。
2006/10/20(金) 11:38:15それよりインデクサのAPIがあることのほうが素晴らしいとは思わんかね。
0871名無しさん@お腹いっぱい。
2006/10/20(金) 13:07:530872名無しさん@お腹いっぱい。
2006/10/20(金) 20:39:03全文検索(BODY TEXT)だけでなく,ファイル名も同時に検索できるようにするには
どのようにしたらよいのでしょうか。
formtype=fileでは,bodytextがpathのどちらかの検索となってしまううえに,
pathではand/or検索ができない(一語検索のみ)のですが。
0873名無しさん@お腹いっぱい。
2006/10/20(金) 21:15:410874名無しさん@お腹いっぱい。
2006/10/20(金) 22:43:45ではそのスタイルシートで PREV を [前へ] に変えてみてくれ。
ついでに Submit ボタンのキャプションを「検索」に、
「per page」を「件毎」に、「with」を「属性」に、
「Results of 1 - 10 of about 220 for XXX (0.010 sec.)」を
「"XXX" の検索結果 約 220 件中 1 - 10 件目 (0.010 秒)」に変えてもらえると嬉しい。
0875名無しさん@お腹いっぱい。
2006/10/20(金) 22:47:540876名無しさん@お腹いっぱい。
2006/10/20(金) 23:20:01estseek が吐く HTML がいつどう変わるかわからんからんし、
JS オフだと働かないしなあ… (それは CSS も同じだ)
綺麗な解決法とは言い難いところがあるね。
>>870
Search::Namazu のこと?
http://cvs.namazu.org/Search-Namazu/ も
http://www.namazu.org/~knok/ も死んでて
かろうじて http://www.akaneiro.jp/Search-Namazu/ にあるみたいだけど開発版のようだし、
使った事例も全然見かけないし、実際使えんの?
0877名無しさん@お腹いっぱい。
2006/10/21(土) 15:24:130878名無しさん@お腹いっぱい。
2006/10/21(土) 17:58:06Search::Namazuは
http://www.namazu.org/trac-namazu/trac.cgi/browser/
に移っているね。
CPANが正式版
http://search.cpan.org/~knok/Search-Namazu-0.96/
0879名無しさん@お腹いっぱい。
2006/10/23(月) 22:12:14873さんも書いているが、文書ドラフトの
@titleとかにファイル名を突っ込むバッチファイルを
書いてやればよいのでは?
自分は画像ファイルなどもタイトルで検索したかった
のでそうして使ってる。
0880名無しさん@お腹いっぱい。
2006/10/24(火) 00:58:52ありがとうございます。一応,自己レスしておきます。
結局,xdoc2txtに全部通すことにし,estfilt.batを
@echo off
echo %ESTORIGFILE% >%2
xdoc2txt -s -r=0 -o=0 %ESTORIGFILE% >> %2
とし,gather時に-foつけて対処してしまいました。
一番手っ取り早かったものですから。
0881名無しさん@お腹いっぱい。
2006/10/24(火) 01:06:53引っかかる検索式の書き方等,よかったら教えていただけませんか?
0882名無しさん@お腹いっぱい。
2006/10/24(火) 01:41:28ストとしてBODY につっこんでるよね。そういうことをやるしかないと思う。
0883名無しさん@お腹いっぱい。
2006/10/25(水) 21:49:39どなたか手順を教えていただけないでしょうか?
やりたいことはWebサーバ構築してキャッシュを全文検索で探せるようにしたいんで・・・
よろしくお願いします。
0884名無しさん@お腹いっぱい。
2006/10/26(木) 00:21:110885名無しさん@お腹いっぱい。
2006/10/26(木) 00:56:43ttp://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11584247111923666502&focus=1
0887名無しさん@お腹いっぱい。
2006/11/11(土) 21:04:500888mini
2006/11/12(日) 16:24:050889名無しさん@お腹いっぱい。
2006/11/20(月) 08:02:38今は200MB以上使われてしまう。
0890名無しさん@お腹いっぱい。
2006/11/20(月) 12:10:36例えば,1.4.9のリリースのメールって来た?
俺は公式サイト見て1.4.9リリースを知ったんだけど…
0891名無しさん@お腹いっぱい。
2006/11/20(月) 20:25:03俺も1.4.9出てたの今初めて知った
0892名無しさん@お腹いっぱい。
2006/11/20(月) 22:03:41のメールがhyperestraier-users(英語)の方に出されてるので、間違えてるっぽいね。
0893名無しさん@お腹いっぱい。
2006/11/21(火) 07:46:120894名無しさん@お腹いっぱい。
2006/11/21(火) 07:47:510895名無しさん@お腹いっぱい。
2006/11/21(火) 10:52:46いまだにベータ版で飯喰ってるような会社だぜ。
0896890
2006/11/21(火) 11:55:18迷惑メールフォルダ探したり,MLに再登録しようか迷っていたんだけどそんなことしなくて良いのねw
状況が分かってイカッタ.
それと作者氏のブログのRSSを登録することにしたヨ.
0897名無しさん@お腹いっぱい。
2006/11/21(火) 22:28:510898名無しさん@お腹いっぱい。
2006/11/21(火) 23:11:51libiconvが見つからん。
iconvは、glibc-commonにあったけど、
libiconvはどこのパッケージにあるの??
0899名無しさん@お腹いっぱい。
2006/11/23(木) 17:36:23手順をある程度教えてもらえないでしょうか?
0900名無しさん@お腹いっぱい。
2006/11/23(木) 17:38:030901名無しさん@お腹いっぱい。
2006/11/23(木) 23:20:53http://hyperestraier.sourceforge.net/intro-ja.html#deployment
0902名無しさん@お腹いっぱい。
2006/11/26(日) 03:00:06subjectが長い場合、語の途中に空白が入っていて、
その語が、検索に引っ掛からないことがあるんですが、
これは、hyperestaraier側の問題なんでしょうか。
subjectのソースを見ると、
=?ISO-2022-JP?B?........?=
の部分が複数行ある時、語の分断が発生して
いるように見えるんですが、関係あるんでしょうか。。。
0903名無しさん@お腹いっぱい。
2006/11/26(日) 09:59:58たぶんしょうがない。どちらかといえば送る側のメーラの問題。
0904902
2006/11/26(日) 14:49:48subjectで検索しても、ちゃんと検索語の含まれる
メールが抽出されるみたいです。
0905名無しさん@お腹いっぱい。
2006/11/26(日) 14:50:21estraierの問題だと思う。
エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。
0906名無しさん@お腹いっぱい。
2006/11/26(日) 15:03:51え、それってどの仕様?
0907名無しさん@お腹いっぱい。
2006/11/26(日) 15:09:40> エンコードされた文字列間は空白なしで連結するのが仕様。空白を含めたかったら空白もエンコードする。
それって確定したの? ずいぶん長いこと紛争の種になったポイントだよね?
0908名無しさん@お腹いっぱい。
2006/11/26(日) 15:16:03いまのところデコードした後、空白の前後が日本語の文字だったら連結すると
かってアプリ側で対処するしかない。
0909名無し募集中。。。
2006/11/26(日) 22:14:04estseek.cgi で検索することはできますか?
やってみると estseek.cgi のトップ画面は出るのですが
検索しようとすると Segmentation Fault します
インデックス化されているファイルのパス名に日本語が入ってると難しいかなぁ...
0910名無しさん@お腹いっぱい。
2006/11/30(木) 17:18:35Test.cgiで作ったのはフツーに動いたんですが、何がおかしいんでしょうか?
0911名無しさん@お腹いっぱい。
2006/11/30(木) 20:19:500912名無しさん@お腹いっぱい。
2006/11/30(木) 22:56:33そのApacheのエラーログが
>Premature end of script headers: estseek.cgiってエラー
なんじゃねーの?
0913名無しさん@お腹いっぱい。
2006/11/30(木) 23:11:090914名無しさん@お腹いっぱい。
2006/12/01(金) 00:12:080915名無しさん@お腹いっぱい。
2006/12/01(金) 11:49:42とにかくコンフを初期設定に戻してやってみます。
0916名無しさん@お腹いっぱい。
2006/12/01(金) 12:04:50因みに、私は、マニュアルの記載
http://hyperestraier.sourceforge.net/intro-ja.html#introduction
>>Hyper Estraierは、以下のライブラリを利用しています。予めそれらをインストールしておいてください。
>>libiconv : 文字コード変換。バージョン1.9.1以降(glibcにも同梱)。
>>zlib : 可逆データ圧縮。バージョン1.2.1以降。
>>QDBM : 組み込み用データベース。バージョン1.8.68以降。
で、既につまづいている状況です。
どなたか。。。
0917名無しさん@お腹いっぱい。
2006/12/01(金) 12:12:12だってさ。
0918916
2006/12/01(金) 12:26:20ありがとうございます。
これは、
・qdbmのwinバイナリパッケージ
のインストールも、不要と考えてよいのでしょうか?
重ね重ねすいませんが。。
0919名無しさん@お腹いっぱい。
2006/12/01(金) 12:27:53知らね。
まず入れてみて、動かなかったら考えたら?
0920918
2006/12/01(金) 12:56:52ありがとうございます。
まだ動かせる所までは程遠い状態、かつ、qdbmを入れてみることができるまで程遠い状態ですが、前に進みますね。
あと、どなたか、こんな超初心者の私に、win版のインストールを教示してくれるHPを教えていただけないでしょうか?
0921名無しさん@お腹いっぱい。
2006/12/01(金) 18:13:570922920
2006/12/02(土) 09:30:18どもです。
予めgoogleで調べたのですが、インストール・設定のメモ等をアップして
くれているHPが見つからなかったんですよ。。
私の探し方が悪いのかも。。
そこで、このスレの利用を思いついたのですよ。
0923名無しさん@お腹いっぱい。
2006/12/02(土) 10:59:43俺がXPで動かしたときは問題なくできたから
0924名無し募集中。。。
2006/12/02(土) 14:19:25QDBM とか他のは何もいらない
検索 CGI を動かすのだったら Apache などの Web サーバが必要
0925922
2006/12/02(土) 22:32:51ありがとうございます。
公式の熟読は、確かに不十分だったかもしれません。気をつけます。
>>QDBM とか他のは何もいらない
は、嬉しいコメントです。実は、この点は、公式の熟読でもわからない点でした。
以前(Hyper・・・前)のestraierは、セットアップ時間30分で十分だったのですが、
Hyperになって、高機能になった分、設定が難しくなったと感じているのは
私だけでしょうか?だからインストールメモのHPが無いのかな、、、と。
でも絶対難しくなってますよね。。。言い訳でした。。。
0926名無しさん@お腹いっぱい。
2006/12/02(土) 22:44:07どこが難しいんだ?
0927名無しさん@お腹いっぱい。
2006/12/03(日) 00:43:030928922
2006/12/03(日) 09:18:36欲嫁。
0929名無しさん@お腹いっぱい。
2006/12/04(月) 02:11:15例えば画像(png、jpgなど)ファイル中にコメントを埋め込んで、それを検索の対象に含める、ということは可能でしょうか?
ユーザガイド読んだら適切なフィルタを持ってくればできそうに思えたのですが、実際に運用してる方に聞きたく書きこみました。
それともこういう場合、コメントはファイルに埋め込むのでなく、別途テキストを用意するのが王道だったりするのでしょうか?
何かコメント頂ければ幸いです
0930名無しさん@お腹いっぱい。
2006/12/05(火) 02:13:35俺は実際に運用してるわけじゃないが、フィルタさえ用意すれば当然可能。
ファイルそのものにコメント記入フィールドがあるなら、
別途テキストなんか用意するよりファイルに直接埋め込む方が正攻法だべ。
0931名無しさん@お腹いっぱい。
2006/12/05(火) 04:44:17http://search.cpan.org/dist/Image-ExifTool/
0932929
2006/12/05(火) 07:45:42>>931
お返事ありがとうございます。お言葉に勇気づけられました。ちょっくらやってみます。
以下のような解説を書いてる方もおられましたです。
ttp://module.jp/blog/comment_in_imagefile.html
0933915
2006/12/07(木) 14:42:34ちなみに大事な要因を書き忘れてました、Windowsでアパッチは2.2.3を使ってます。
0934915
2006/12/07(木) 15:25:12replace: file:///www/cgi-bin/{{!}}http://localhost/
でCGIの設置場所がCのwwwのcgi-binに掘り込んでるんですが、正しくはどう
0935名無しさん@お腹いっぱい。
2006/12/07(木) 16:12:190936915
2006/12/07(木) 16:39:26Content-Type: text/plain; charset=UTF-8
Error: the configuration file is missing.
ってでました。
0937名無しさん@お腹いっぱい。
2006/12/07(木) 18:05:26ファイル名が微妙に間違ってるとかない?
これ以上はエスパーが降臨しないと分からんな
0938名無しさん@お腹いっぱい。
2006/12/07(木) 22:03:07どう見ても estseek.conf が存在しないとしか思えませんが
0939915
2006/12/13(水) 19:21:19Status: 500 Internal Server Error
Content-Type: text/plain; charset=UTF-8
Error: indexname is undefined.
となりました。
コンブの記述ミスでしょうか?
0940名無しさん@お腹いっぱい。
2006/12/13(水) 20:22:37出てくるメッセージ読めって
Error: indexname is undefined -> エラー:indexnameが定義されてません
Windows版バイナリパッケージを解凍した素のestseek.cgiを実行したって
Error: the index is missing or broken
って出る(バイナリパッケージにいきなりcasketなんていうフォルダはない
から当たり前)のに、undefined って出てるんだから、完全にコンブ(これも
新しい俺用語だな)の記述ミスだろ
0941915
2006/12/13(水) 22:15:15コンブの中身はこうししてるんですが・・・
どこがまずいですか?
環境はC:\www\casketにCASKETがあって、C:\www\public_htmlにindex.htmlやestseek.*やtest.cgiがある感じです。
加えてC:\www\cgi-binにもindex.htmlやestseek.*やtest.cgiがある感じです。
以下の中身はcgi-binの方です。
indexname: /www/casket
・・・
replace: file://C|/www/public_html/{{!}}http://localhost/
replace: /index\.html?${{!}}/
・・・
0942名無しさん@お腹いっぱい。
2006/12/13(水) 23:23:36でも、estseek.cgi を実行すると undefined ってエラーが*なぜか*出てるんだよ
何かきっと単純な見落としがあるんだろうけど、それが何かはエスパーが降臨しないと分からん
試しにWindows版バイナリパッケージをもう一度落としてきて、それをC:\hyperestraier に解凍して、
C:\hyperestraier\estseek.conf の一行目を indexname: c:/www/casket にして、コマンドプロンプト
から、
C:\hyperestraier> estseek.cgi [ENTER]
って実行してみな
これが動かなかったら PC を窓から投げ捨てろ
動いたとしたら地道に違いを見つければきっと解決できる
0943名無しさん@お腹いっぱい。
2006/12/13(水) 23:28:53CGI としてブラウザから操作できるかどうかは、apache の設定とかも絡んでくるから別次元の話
0944名無しさん@お腹いっぱい。
2006/12/14(木) 01:01:12> C:\www\casketにCASKETがあって
だったら何で
indexname: /www/casket
なの?
indexname: C:\www\casket
にしなければならないんじゃネーノ?
あと、その casket が estwaver で作ったものであるなら、
indexname は 〜/casket ではなく 〜/casket/_index にしないと動かないわけだが
0945915
2006/12/14(木) 09:52:34ただestcmdで作ったものなんでスけどね。。。
waverで作って、やってみます。
動かなかったら、新品のPCを最上階から投げ捨てる覚悟を作ってやります!!
0946915
2006/12/14(木) 09:53:150947名無しさん@お腹いっぱい。
2006/12/15(金) 01:53:32で、
indexname: C:\www\casket
は試したのか?
誰も waver で作り直せなんて言ってないだろが。
とっとと窓から投げ捨てろ
0948名無しさん@お腹いっぱい。
2007/02/18(日) 19:07:15age とく
0949名無しさん@お腹いっぱい。
2007/02/18(日) 21:37:07でも、記事は動作原理とインストールして走らすまでの
話が主で、Namazu みたいに使いこなしのこなれた
枯れたシステムという感じではないね、やっぱり。
へたれな おいらは mew 以外ではまだしばらく
様子見しまつ。
0950名無しさん@お腹いっぱい。
2007/02/20(火) 11:06:30_conf で denyrx: から pdfを除外して、
typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
を入れても、estwaver crawl xxx すっと
2007-02-20T01:47:06Z INFO fetching: 1: http://.../MS0024320.pdf
2007-02-20T01:47:06Z INFO ignored: 200: http://.../MS0024320.pdf
となる。なぜだろう?
0951名無しさん@お腹いっぱい。
2007/02/20(火) 11:17:34estfxpdftotextはシェルスクリプトで、内部的にpdftotextを読んでるだけだから。
0952950
2007/02/20(火) 11:23:44estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -sd -cm casket /var/..
これは問題なくうごく。
ソースを追うとさ、estwaver が呼んでいる fetch_document が
status 200 を返しているんだな。てことは、est_url_shuttle
が200を返しているんだけど、その先が thread になってて
ようわからん。
0953950
2007/02/20(火) 12:36:47× typerule: ^application/pdf${{!}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
○ typerule: ^application/pdf${{!}}H@/usr/local/share/hyperestraier/filter/estfxpdftohtml
ttp://hyperestraier.sourceforge.net/cguide-ja.html のタイプミスに気が塚なんだ onz
0954名無しさん@お腹いっぱい。
2007/03/06(火) 13:11:37レス数が950を超えています。1000を超えると書き込みができなくなります。