全文検索エンジンEstraier
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0739名無しさん@お腹いっぱい。
2006/07/24(月) 21:34:04トンクス。
0740名無しさん@お腹いっぱい。
2006/07/27(木) 21:09:15検索結果を重要度が高い順に並べたりしてくれるような機能ってありますか?
msearchを使っているのですが、更新が新しいもの順とか、アルファベット順とか
そんな機能しかないのです。
0741名無しさん@お腹いっぱい。
2006/07/27(木) 21:27:27はい
0742740
2006/07/27(木) 23:13:06導入検討します
0743名無しさん@お腹いっぱい。
2006/07/31(月) 14:19:32ページの<title>タグとか<h>タグとかを見てたりするの?
0744名無しさん@お腹いっぱい。
2006/07/31(月) 17:37:11ヒント ユーザーガイド
0745名無しさん@お腹いっぱい。
2006/07/31(月) 17:49:42て、テキストをぜんぶくっつけたものとして取り込んでいると考えてさしつかえない。
0746名無しさん@お腹いっぱい。
2006/08/01(火) 00:02:130747名無しさん@お腹いっぱい。
2006/08/01(火) 02:21:59読んでる部分はある。titleと、、、あとなんだっけ?
0748名無しさん@お腹いっぱい。
2006/08/01(火) 02:50:24metaとか見てる筈。でもそれくらい。
title は @title 属性にもなるし、本文にも隠しテキストとして入っている。
という話はややっこしいので、 743 にはああ書いた方が伝わると思ったんで
あのように書いた。少なくとも h1 とかで重要度とかいうのは考えてないです
よという感じ。
そもそも 743 の考えている重要度ってのがおれにはよくわかってないんですが。
基本的には H.E. では単語の重要度には Tf-Idf を使ってるよ、てのが答えに
なっているのかな。
0749名無しさん@お腹いっぱい。
2006/08/01(火) 03:13:490750名無しさん@お腹いっぱい。
2006/08/01(火) 07:22:46estcmd gatherでもだけど。
0751名無しさん@お腹いっぱい。
2006/08/01(火) 20:36:060752名無しさん@お腹いっぱい。
2006/08/01(火) 21:22:350753名無しさん@お腹いっぱい。
2006/08/04(金) 07:36:15これは普通(マニュアル通り)に記述してインデックス作成すれば検索できるように
なるのでしょうか?
マニュアルにある「若者たち」をやってみたのですが、検索されません。
どうしたらいいでしょうか?
0754名無しさん@お腹いっぱい。
2006/08/04(金) 09:01:44インデックスを作った時の操作が間違ってるとした言えない。
せめて、実行したコマンドを張り付けるとか、ログを張り付けるとか、実行環境について書くとかしませう。
0755名無しさん@お腹いっぱい。
2006/08/04(金) 15:49:18# estcmd put casket /home/date.est
estcmd: ERROR: casket:invalid argument
# estcmd version
Hyper Estraier 1.3.4 on FreeBSD
date.estはUTF-8で記述してあります。
実行前には普通にインデックスをは作成しました。
0756名無しさん@お腹いっぱい。
2006/08/04(金) 23:34:300757名無しさん@お腹いっぱい。
2006/08/04(金) 23:46:21@urlじゃだめだよ。それでダメなら、date.estの中身を見せてみ。
0758名無しさん@お腹いっぱい。
2006/08/05(土) 04:28:10ありがとうございます。登録する事が出来ました。@uriの記述でした。
文書ドラフト形式の登録の場合、ファイル毎に登録しなければならないでしょうか?
一括で登録する方法ってありませんでしょうか?
よろしくお願いします。
0759名無しさん@お腹いっぱい。
2006/08/05(土) 04:49:51文書ドラフトであってもestcmd gatherで登録できる
0760名無しさん@お腹いっぱい。
2006/08/16(水) 10:17:260761名無しさん@お腹いっぱい。
2006/08/17(木) 20:42:06ファイル名をつけると
# 1;2c1;2c1〜
と表示します
ファイル名無しだとフリーズするのですが、どうすればいいのでしょうか?
0762名無しさん@お腹いっぱい。
2006/08/18(金) 05:22:140763名無しさん@お腹いっぱい。
2006/08/18(金) 14:43:030764名無しさん@お腹いっぱい。
2006/08/18(金) 18:17:53ありがとうございます。
標準入力ってどんなの?
普通のHTML文章じゃダメなのかな?
0765名無しさん@お腹いっぱい。
2006/08/18(金) 21:37:48お前の理解力に合わせて言うとキーボードからの入力待ち状態だと思ってさしつかえない。
っていうか勉強しろ。
ちなみに、 fh をつければ、ちゃんと HTML として解釈してくれる。
0766名無しさん@お腹いっぱい。
2006/08/18(金) 21:45:05コマンドオプションにfhをつけてるが?
0767名無しさん@お腹いっぱい。
2006/08/19(土) 20:44:11CygwinでなくてネイティブWin32版が出てる。
0768名無しさん@お腹いっぱい。
2006/08/20(日) 09:37:25WinXP以降ならば
@echo off
for %%A IN ("%ESTORIGFILE%") DO echo "%%~nA" > "%2"
0769名無しさん@お腹いっぱい。
2006/09/10(日) 00:27:530770名無しさん@お腹いっぱい。
2006/09/13(水) 18:03:110771名無しさん@お腹いっぱい。
2006/09/13(水) 18:57:120772名無しさん@お腹いっぱい。
2006/09/14(木) 01:40:58変更点とかってどうやって解るの?
0773名無しさん@お腹いっぱい。
2006/09/14(木) 10:43:16それ漏れも知りたい。
ほぼ全てのリリースでqdbmの更新が必要だからな。
0774名無しさん@お腹いっぱい。
2006/09/14(木) 11:05:50たいていの更新ではファイル形式じたいは変わってないので読み書きできると
思う。なんでそのくせ最新版を要求するのかはよくわからない。
qdbm のバージョンアップに伴い旧形式で読み書きできなくなるときは、作者
の人がそのような注意をアナウンスのときにしている気がする。
けれどそれは何も保証するものではないなあ。
0775名無しさん@お腹いっぱい。
2006/09/14(木) 11:18:150776名無しさん@お腹いっぱい。
2006/09/14(木) 13:35:46(余所で再利用することを考えて?)H.E.の外部に出しておくためのライブラリとしての側面があるからねえ。
0777名無しさん@お腹いっぱい。
2006/09/14(木) 14:47:01HyperEstraierの略だったのね^^
でも意味わからなぁ〜い
まだまだ未熟ですがご指導お願いいたします。
0778名無しさん@お腹いっぱい。
2006/09/14(木) 23:23:460779名無しさん@お腹いっぱい。
2006/09/15(金) 11:49:520780名無しさん@お腹いっぱい。
2006/09/15(金) 15:03:07H.E. 側で安定したら qdbm 側に反映するとかー。
0781名無しさん@お腹いっぱい。
2006/09/15(金) 17:46:10せいぜい最新版にしたときのコンパイルがちょびっと楽になるというくらい?
別途に qdbm が欲しい人にとってはかえって面倒なだけだし。
0782名無しさん@お腹いっぱい。
2006/09/15(金) 22:10:21それに、ダウンロードする回数も1回で済む。
デメリットに関しては>>781の言う通りだと思う。
0783名無しさん@お腹いっぱい。
2006/09/17(日) 07:52:41case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
0784名無しさん@お腹いっぱい。
2006/09/17(日) 14:32:50case 53: name = "超迷子さんのすきゃんてぃ"; break;
作者の世代がなんとなくわかるな。
0785名無しさん@お腹いっぱい。
2006/09/18(月) 11:50:160786名無しさん@お腹いっぱい。
2006/09/18(月) 16:54:120787名無しさん@お腹いっぱい。
2006/09/20(水) 17:21:39インターフェイルに接続するときに
http://localhost:1978/master_ui等でブラウザからアクセスするのですが
これはポートポート番号1978を使って接続していますよね?
nmapで見てみたら1978は表示しないのですが何ででしょう?
0788名無しさん@お腹いっぱい。
2006/09/20(水) 17:36:30nmap はデフォルトでスキャンするポートに含まれてないからじゃないの。
-p1978 すれば出てくるでしょ。
0789名無しさん@お腹いっぱい。
2006/09/20(水) 23:07:470790名無しさん@w3m
2006/09/20(水) 23:51:140791名無しさん@お腹いっぱい。
2006/09/20(水) 23:52:51ローカルCGIでもちゃんと動くよ。
0792名無しさん@お腹いっぱい。
2006/09/22(金) 02:56:412006-09-20T14:41:33ZINFO[71]: fetching: 1: http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdbm&Search=Search
何度トライしても上記でフリーズ?するんだけど
0793名無しさん@お腹いっぱい。
2006/09/27(水) 15:37:070794名無しさん@お腹いっぱい。
2006/09/27(水) 20:00:32ユーザーガイドに
データをダンプするコマンド
estcmd search -max -1 -dd casket [UVSET]
とあるのですが「UVSET]って何をすればいいのでしょうか?
estcmd search -max -1 -dd casket
これだけだと
estcmd: ERROR: /***/casket: I/O problem
と表示されます
0795名無しさん@お腹いっぱい。
2006/09/27(水) 21:21:210796名無しさん@お腹いっぱい。
2006/09/28(木) 01:08:45estcmd: No match.
こんなん表示されます。どうしたらいいでしょう
0797名無しさん@お腹いっぱい。
2006/09/28(木) 02:31:06estcmd search -max -dd 1 casket '[UVSET]'
とするとよろし。
0798名無しさん@お腹いっぱい。
2006/09/28(木) 03:21:19しかしながら *.est のファイルが見当たらないのですがどうしたらいいのでしょう
0799名無しさん@お腹いっぱい。
2006/09/28(木) 10:04:28取得最大数を無制限にするなら-1を指定するから、
estcmd search -max -1 -dd casket '[UVSET]'
が正解のような。
0800名無しさん@お腹いっぱい。
2006/09/28(木) 11:44:25転記ミスです。
#estcmd serach -max -1 -dd casket '[UVSET]'
--------[6801AEBA0ECCC85A]--------
VERSION 1.0
NODE local
HIT 33494
HINT#1 [UVSET] 33494
TIME 0.461
DOCNUM 33494
--------[6801AEBA0ECCC85A]--------
--------[6801AEBA0ECCC85A]--------:END
0801名無しさん@お腹いっぱい。
2006/09/28(木) 14:04:100802名無しさん@お腹いっぱい。
2006/09/28(木) 17:15:52念のためにパーミッションを変更しましたが同様です。
0803名無しさん@お腹いっぱい。
2006/09/28(木) 18:24:27まあいいけど。
・適当な ID で estcmd get したらできるか
・-max 1 (とか少ない数)にしたらどうなるか、 -dd を外すとどうなるか
・作業場所はどんなところか、残り容量はどれくらいか
とかも確認よろ。
あとありえないと思うけど、 NFS 共有してる場所とか、場合によって root
でも書き込めない場所というのはあるよ。
0804名無しさん@お腹いっぱい。
2006/09/28(木) 19:38:54再度ユーザーガイドを見ながら最初からやり直したら出来ました。
rootで作業は横着したいので作業してます。
閉ざされた環境なので問題ないと思っています。
0805名無しさん@お腹いっぱい。
2006/09/28(木) 20:42:35一般的な考え方としてはよっぽどの作業(システムに変更を加えるというまさ
にそのアクションそのもの)以外の場合に root を使うのはダメゼッタイ。
環境がどうこうとか、問題がないとか関係なく、やめた方がいいよ。
0806名無しさん@お腹いっぱい。
2006/09/29(金) 04:34:08クローラの設定ファイル_conf
# text size limitation (in kilobytes)
これって取得するtextのサイズ制限でいいのかな?
0807名無しさん@お腹いっぱい。
2006/09/29(金) 10:08:440808名無しさん@お腹いっぱい。
2006/09/29(金) 11:37:11圧縮されてるから普通のedetorで見れないだけ?
sestseek.cgiも覗いて見たいです。
環境はwin、UNIXどちらでもいいです。
0809名無しさん@お腹いっぱい。
2006/09/29(金) 11:39:270810名無しさん@お腹いっぱい。
2006/09/29(金) 12:07:290811名無しさん@お腹いっぱい。
2006/09/29(金) 14:07:29コマンドで作成されたファイルというのが DB のことを指すのであれば、この
構成については基本的にはドキュメントがない。どうしても知りたければソー
スを読むか作者に聞くかするしかないんじゃない。
また、H.E. のDBは基本的には QDBM のDBファイルだろうから、 QDBM のユー
ティリティコマンドでいろいろ弄れることは弄れるはず。
0812名無しさん@お腹いっぱい。
2006/09/29(金) 14:23:300813名無しさん@お腹いっぱい。
2006/09/29(金) 14:25:590814名無しさん@お腹いっぱい。
2006/09/29(金) 15:04:39表示しないのよぉ〜
何使ってる?教えて
0815名無しさん@お腹いっぱい。
2006/09/29(金) 15:10:000816名無しさん@お腹いっぱい。
2006/10/02(月) 15:05:20INDEXをコマンドを使って作成すると文字が変換されてしまい
検索結果をリンクしても表示されません
特殊な文字を使ったファイル名を別な文字にあらかじめ置き換えておく方法が考えられますが
他に方法はありますでしょうか?
よろしくお願いします。
0817名無しさん@お腹いっぱい。
2006/10/02(月) 16:25:020818名無しさん@お腹いっぱい。
2006/10/02(月) 16:52:34RFCで定義されてるみたいだから正常だと思うんだけど
0819名無しさん@お腹いっぱい。
2006/10/02(月) 18:24:02これは、バグと言えると思うけどなぁ
0820816
2006/10/02(月) 19:39:48次に困ったら又考えよう
0821名無しさん@お腹いっぱい。
2006/10/02(月) 21:41:00にすればエスケープしてないファイル名を表示してくれるんじゃね?
0822名無しさん@お腹いっぱい。
2006/10/03(火) 16:03:20estfraud.confだけを設定したらいい?
それともestfraud.conf+_confの設定?
0823名無しさん@お腹いっぱい。
2006/10/04(水) 16:48:26全文検索ユーティリティ統一スレッド part3
ttp://pc8.2ch.net/test/read.cgi/bsoft/1120649196/
0824名無しさん@お腹いっぱい。
2006/10/05(木) 07:59:33少なくともリンクがダブルクォートで囲ってないと誤動作するようです。HTML
規格違反だとは思いますが。
あとpukiwikiのぺージにはまりこんでしまう問題もなんとかならないでしょうか。
0825名無しさん@お腹いっぱい。
2006/10/05(木) 08:39:11単なるN-gramとは事情がちょっと違うよなあ。
0826名無しさん@お腹いっぱい。
2006/10/05(木) 09:10:06ないし。
>>824
そのレベルの問題は作者に報告するのがよかろうに。
0827名無しさん@お腹いっぱい。
2006/10/05(木) 17:30:08このindexをestseek.cgiで指定して検索した場合って検索結果って表示されますか?
0828名無しさん@お腹いっぱい。
2006/10/05(木) 19:30:58estwaverやestmasterで作ったインデックスも
estcmdで作ったインデックスと全く同じように使えるよ。
0829名無しさん@お腹いっぱい。
2006/10/05(木) 21:16:190830名無しさん@お腹いっぱい。
2006/10/05(木) 23:38:040831名無しさん@お腹いっぱい。
2006/10/06(金) 14:15:53このアクセス名を変更したいときはどのようにすれば良いでしょうか?
バージョンだけでも隠匿したいです。
0832名無しさん@お腹いっぱい。
2006/10/06(金) 16:37:50estcmd extkeys -um
っつうコマンドは何のために実行するんですか?
「インデックス内の各文書のキーワードを抽出したデータベースを作成します。」となって
いますが、インデックスを形態素解析してキーワードごとに区切り直して何のメリットが?
検索速度、精度に影響あるんですか?
0833名無しさん@お腹いっぱい。
2006/10/06(金) 18:34:18> 理論通りの N-gram を実装しても、インデックスが大きくなり過ぎて結局使え
> ないし。
へ?
俺200MBくらいの日本語テキストをLuceneのN-gramでインデックス化してるよ?
類似検索とかしなければ、0.1秒で帰ってくる。
マシンはPPCのMac mini。
0834名無しさん@お腹いっぱい。
2006/10/06(金) 18:42:05類似検索ができるようになります。
0835名無しさん@お腹いっぱい。
2006/10/06(金) 20:08:53補助インデックスでヒット数が得られれば検索速度が上がる。
そうでない場合でも、検索精度が上がる。
0836名無しさん@お腹いっぱい。
2006/10/06(金) 21:24:54たとえば下記の3つの結果が 53, 27, 27 になります。
estcmd search -vu -max 10 -attr "@uri STRINC Win" casket Windows
estcmd search -vu -max 10 -sk 1 -attr "@uri STRINC Win" casket Windows
estcmd search -vu -max 50 -attr "@uri STRINC Win" casket Windows
これは仕様でしょうか?
0837名無しさん@お腹いっぱい。
2006/10/07(土) 07:41:25スレ違い
0838名無しさん@お腹いっぱい。
2006/10/07(土) 10:17:48>>836
属性インデックスを使わない場合は、ヒントの該当数表示が正確とは限らないから、
それは多分仕様。
■ このスレッドは過去ログ倉庫に格納されています