トップページunix
987コメント301KB

全文検索エンジンEstraier

レス数が950を超えています。1000を超えると書き込みができなくなります。
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0959名無しさん@お腹いっぱい。2007/03/26(月) 01:11:33
WINDOWSの話で恐縮なのですが、質問させてください。
pukiwikiのデータのインデックスをestwaverで作ろうとしたのですが、
casketの_confでseedで指定しているページのインデックスしか作ることが
できませんでした。(リンクをたどってくれない。)
通常のhtmlのページは取り込むことができます。
pukiwikiのようなURLでリンクが張られるページのインデックスを、
estwaverで作るにはどうしたらいいのでしょうか。
denyrxなどで弾かれているかと思い、制限がかかりそうなところは
全てコメントアウトするなどしたのですが、変わりませんでした。
またseeddepth,maxdepthは20にしています。

ヒントだけでも結構ですので、もしわかる方いましたらよろしくお願いします。
0960名無しさん@お腹いっぱい。2007/03/26(月) 02:18:50
>>959
denyrxで弾かれてるしかないだろうな
0961名無しさん@お腹いっぱい。2007/03/26(月) 09:59:59
denyrxでlocalhostが入ってるからじゃね?
09629592007/03/26(月) 19:00:49
>>960,961
レスどうもありがとうございます。
denyrx、noidrxは全てコメントアウトしているのですがだめでした。

その後いろいろ試行錯誤していたのですが、偶然取り込むことができました。
前に取り込めたhtmlも動作がおかしいようだったので、unittestを
してみたところ、_confが上書きされてしまいました。
そこで改めて設定をやり直したところ、ちゃんと動作しました。
_conf以外にはseedをphpの吐くページではなく、その上にphpにリンクを
張っているhtmlを作るという変更をしました。
あまり原因が明確ではないのが気持ち悪いですが・・・

付き合ってくださった方々、どうもありがとうございました。
0963名無しさん@お腹いっぱい。2007/03/26(月) 23:30:56
一生懸命いじっていた _conf は全く別の場所のファイルだった説を唱えてみる
0964名無しさん@お腹いっぱい。2007/03/28(水) 00:46:28
次スレはHyperEstraierでいいよね?
0965名無しさん@お腹いっぱい。2007/03/28(水) 06:39:47
おう、次スレの時期か。
このスレ、ここまで来るのに2年以上かかったのね。
0966名無しさん@お腹いっぱい。2007/03/28(水) 08:24:07
スレの速度もHyperになりましたか。
0967名無しさん@お腹いっぱい。2007/04/15(日) 19:12:10
Win用のバージョン1.4.10でファイル検索システム用にノードサーバを立ち上げて
検索インターフェース(search_ui)で検索をかけたのですが検索結果のリンク先が文字化けします
estseek.confの「showreal」のような設定はできますか?
あるいはestseek.cgiをインターフェースに使うことはできるのでしょうか?
0968名無しさん@お腹いっぱい。2007/04/16(月) 10:07:18
うう、*.tex とかを読ませる方法がわからん・・・
0969名無しさん@お腹いっぱい。2007/04/16(月) 11:30:10
つ「マニュアル」
0970名無しさん@お腹いっぱい。2007/04/16(月) 19:25:09

そうなんですが、正直なところマニュアル(uguide-ja)は、
入門者には情報が多すぎるのと専門用語が多くてわかりにくいです。
もうちょっと腰を落ちつけて読みます。


0971名無しさん@お腹いっぱい。2007/04/16(月) 20:30:45
んなこたねえだろ
0972名無しさん@お腹いっぱい。2007/04/16(月) 22:43:41
いややっぱりわからんです。私の頭悪すぎなのでしょう。
0973名無しさん@お腹いっぱい。2007/04/16(月) 22:52:38
>>972
HEのは、特徴的な文体ではあるな。
しかし、ほかのソフトマニュアル
のほうがうんと読みやすい、てことも
ないわけだし。
0974名無しさん@お腹いっぱい。2007/04/16(月) 23:14:00
estcmd gather -il ja -sd casket ~/foo/*.tex
でもだめ、
find ~/foo -iname '*.tex' | estcmd gather -il ja -sd casket -
でもだめ。

なんか大きな間違いをしてますか?

> 特に構造のない文字列です。デフォルトでは、ファイル名の接尾辞が「.txt」「.text
> 」「.asc」の場合にプレーンテキストとして扱われます。

はわかるんですが、デフォルト以外はどうしたらいいのかの説明がないから
迷ってしまう・・・

>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリス
>トを読み込みます。

これもわかりにくかった。

-fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切
りで複数の接尾辞を指定できます。「*」だと全てのファイルに一致します。コマ
ンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@
」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれ
でもない場合は文書ドラフトとして解析されます。このオプションは複数回指定で
きます。

ここらへんなんでしょうが、私には意味わからんです。
この文章のあとにexampleが欲しいと思います。


0975名無しさん@お腹いっぱい。2007/04/16(月) 23:18:27
-fx の事例があるのは「外部コマンドのフィルタ」の部分で、
ここでもふつうのテキストをどうすれば読ませられるかってのは
わからない。うーん。

なんというか、もうひとつ流行らない理由がわかりました。
googleでも解説ページのようなものがひっかからないし。うーん。
なんか貢献したいんですが。
0976名無しさん@お腹いっぱい。2007/04/16(月) 23:36:52
*.texを普通のテキストとして読ませるなら
% estcmd create tex_db
% find /usr/share/doc/ -name '*.tex' | estcmd gather -ft -fz tex_db -
みたいな感じでどう?
0977名無しさん@お腹いっぱい。2007/04/16(月) 23:40:27
あ、ごめん、'-fz'とかいらないわ。
'-ft'が読み込んだファイル全部をテキストファイルとして
扱うってオプションです。
0978名無しさん@お腹いっぱい。2007/04/17(火) 07:25:55
なるほど、そういうふうにするのですか。助かります。
ありがとうございます。
0979名無しさん@お腹いっぱい。2007/04/17(火) 19:58:52
御礼に次スレ立てておきました。
http://pc11.2ch.net/test/read.cgi/unix/1176807372/
09807742007/04/22(日) 11:22:42
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?clip=8
こちらのサイトでtestを検索
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?phrase=text&perpage=10&clip=8&navi=0&attr=&order=
すると関連キーワードとして
RelatRelated terms: text, rowspan, style, align, center, color, background, key
というふうに出てきますが、これって配布されているCGI、estseek.cgiでも出すようにできますか??
いろいろ調べているんですが、方法が一向に分からず。
ご存知の方いらっしゃったら教えて下さい。お願いします。
0981名無しさん@お腹いっぱい。2007/04/23(月) 07:01:46

http://hyperestraier.sourceforge.net/uguide-ja.html#estseek
> 設定ファイルの書式
> relkeynum : 表示する関連語の数を指定します。

では駄目だったということ?
・「いろいろ調べている」がいったいどこを調べたのか?
・実際に試した事
くらいは書こう。
0982名無しさん@お腹いっぱい。2007/04/24(火) 22:21:29
複数のインデックスを作っておいて、同時に検索できるのでしょうか?
estseek.confのindexname: 部分では複数の記述ができませんでした。
0983名無しさん@お腹いっぱい。2007/04/24(火) 22:57:29
estseek では無理
ノードマスタを叩け
0984名無しさん@お腹いっぱい。2007/04/25(水) 22:37:44
>>983
ありがとうございます。

DesktopHEを見ていると、対象を複数書いても1つのインデックス。
普通にgatherだけでは作れないかもしれないですが、こちらの方法も調べてみます。
0985名無しさん@お腹いっぱい。2007/04/26(木) 02:50:53
983だと>>967の問題が...
0986名無しさん@お腹いっぱい。2007/04/27(金) 07:31:49
最近使い始めたのですが、Windowsで.java,.sqlを検索対象にするため、T@myfilterとし
myfilter.batを作って、
type %1 > %2
としました。効率良い方法でしょうか?
0987名無しさん@お腹いっぱい。2007/04/27(金) 09:08:24
-ft でいいじゃん。
レス数が950を超えています。1000を超えると書き込みができなくなります。