全文検索エンジンEstraier
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0438名無しさん@お腹いっぱい。
2005/10/24(月) 03:33:31それで出来なくはないけど、リンクは静的に設定するから常時立ち上げておかないと意味なさげ。
検索だけならべつにかまわないけど。
0439名無しさん@お腹いっぱい。
2005/10/24(月) 04:19:47スラドで騒ぐのはマカー。Googleマンセーよりさらに質の悪い連中。
0440名無しさん@お腹いっぱい。
2005/10/24(月) 08:29:16P2Pノードを自分で立てたら、既存の別のノードか中央のサーバに自分のアドレスとポートを
通知する仕組みが必要だろうね。estの作者がそこまで考えてるかどうかは知らないけど。
0441名無しさん@お腹いっぱい。
2005/10/24(月) 11:37:47いいかげんドキュメント嫁
ホスト同士の通信のしくみもつくらずP2Pなわけねーだろ>>440
0442名無しさん@お腹いっぱい。
2005/10/24(月) 14:24:02自分のノードにESTDOCをコピーするようにすればブックマークはいらんようになるかもしれんね。
そういう使い方ならかならずしも常時立ち上げる必要は無いし。
でも、いまでもGoogleがあるからブックマークは使わないという人もいるから、
それ以上のメリットがあるかどうかは不明。自分で順位を操作できたり、属性を加えられるのが
どれくらい嬉しいのかどうかわからん。
0443およよ
2005/10/25(火) 19:39:23estcmd gather -ft -px @uri -px @title -px point -px link casket c:\list.txt
みたいに設定した場合で 「@title」や別の属性名例えば「comment」などに日本語を設定して
estseek.cgiで検索すると文字化けしてしまうんですが、なんか指定が足りないのでしょうか?
この場合インデックスに追加しているファイル群の文字コードはばらばらなのですが
それが原因なのでしょうか?
0444名無しさん@お腹いっぱい。
2005/10/25(火) 19:45:55UTF-8 で保存し直してやってみたらどうでしょう。
0445sage
2005/10/25(火) 22:24:480446sage
2005/10/25(火) 22:25:280447およよ
2005/10/26(水) 11:56:25ご指摘のとおりですた。UTFにしたらいけますたー。 (^^;
list.txtのウィンドウズマシンのVBでプログラムをつくっていたので文字コードが原因ですた。
お騒がせしました。m(_ _
0448名無しさん@お腹いっぱい。
2005/10/26(水) 14:08:16ttp://japan.internet.com/webtech/20051026/6.html
0449名無しさん@お腹いっぱい。
2005/10/26(水) 17:41:34ファイル名も検索できるようにしたいと思うのですが、%ESTORIGFILE%環境変数を利用して、
filenamefilt.bat
echo off
echo %ESTORIGFILE%
として、
カレントディレクトリにあるmogeディレクトリに含まれる拡張子が.hogeの全てのファイル名を、
カレントディレクトリのcasketへ、次のコマンドでインデックスさせようとしているのですが
うまく行きません。
estcmd gather -cl -fx .hoge T@filenamefilt -fz -fo ^ -pc CP932 -sd -cm casket moge
インデックスはされているようなのですが、やはりファイル名では検索できません。
どのようにすればよいのでしょうか?
0450およよ
2005/10/26(水) 18:33:11すませんです。もひとつにたような話なのですが
estseek.confに今回属性として表示したかった「link」という項目名「extattr」を追加し、
下記のように記述したのですが、追加した属性自体は出力されているのですが、表示名
とした日本語がうまく表示されないのです。「リンク先がこちら」の部分は文字化けしてし
まいます。上の経緯もありましたので 小躍りしながら設定ファイルをUTF8で保存したの
ですが追加するとapacheから内部エラー500で呼び出せなくなってしまいました(^^;
設定部分
extattr: link|リンク先はこちら
属性名の表示名称に日本語は難しいのでしょうか?
extattr: link|LinkHere
などはちゃんと表示されているんですが・・・
0451名無しさん@お腹いっぱい。
2005/10/28(金) 15:11:280452名無しさん@お腹いっぱい。
2005/10/28(金) 15:49:19メジャーになればなるほど攻撃される可能性が増えてしまう。
0453名無しさん@お腹いっぱい。
2005/10/28(金) 16:05:030454名無しさん@お腹いっぱい。
2005/10/28(金) 16:12:510455名無しさん@お腹いっぱい。
2005/10/29(土) 01:06:49"(666) YaCy P2P Web-Search"というのが出ていた。で、思ったんだけど
P2Pの検索エンジンは結構需要あるんじゃまいか?
0456名無しさん@お腹いっぱい。
2005/10/29(土) 01:09:48P2P検索エンジンがビジネスサイドの方で話題になった頃に
どういう議論がなされて、どういう経過を辿って、そして
消え去ったのか調べてみると良いのではないかな?
0457名無しさん@お腹いっぱい。
2005/10/29(土) 01:27:45分散処理の形態としては、P2Pというより、バス型ネットワークのトポロジーで運用
するのが流行りそうな予感。
0458名無しさん@お腹いっぱい。
2005/10/30(日) 00:56:03誰かできた人いませんか?
ttp://fruit.dnsalias.org/hyperestraier/index.html
0459名無しさん@お腹いっぱい。
2005/10/31(月) 02:03:15Hyperがあるのと無いのってどう違うの?
P2P対応か否か?
0460名無しさん@お腹いっぱい。
2005/10/31(月) 02:22:27でもやっぱり最大の違いがノードAPIであるのは間違いない。
HTTP ベースで管理できるということは コアAPI または コアAPIを使った言語バインディング を使わなくても
簡単に全文検索機能を持ったアプリケーションを開発できるということで、これは素晴らしいと思う。
もともとは P2P のために作られたのかもしれないけど、P2P で利用しなくても全文検索サーバだけを別に立てて運用できるし
コンソール、GUI、Webアプリ等々、異なるフロントエンドから同じインデックスを利用できたりと、かなり面白い。
0461名無しさん@お腹いっぱい。
2005/10/31(月) 02:45:09分けたindexを取りまとめて扱うのにはestmasterを使わなきゃいけないのは
ちょっと残念。
サーバープロセスとしてはメモリ食いすぎてないか?> estmaster
0462名無しさん@お腹いっぱい。
2005/10/31(月) 03:27:170463名無しさん@お腹いっぱい。
2005/10/31(月) 16:41:19mikioタソの日記を見ると形態素解析の価値も認めているから、tokenizerはLucene同様
入れ替え可能になったりして。つか、N-gramはCJKではそこそこ使えるけど、タイ語とか
インド諸言語などの場合はどうなんだろ?
0464名無しさん@お腹いっぱい。
2005/10/31(月) 16:43:220465名無しさん@お腹いっぱい。
2005/10/31(月) 18:28:01Unicodeに文字が入ってるなら問題はないんじゃない?
NグラムのNをいくつにするかは言語ごとに最適値があると思うけど、
性能(速度とDBのサイズ)がちょっと違うだけで、精度はいずれにしても一緒。
0466名無しさん@お腹いっぱい。
2005/10/31(月) 18:38:49なると思うが……。
0467名無しさん@お腹いっぱい。
2005/10/31(月) 19:23:380468名無しさん@お腹いっぱい。
2005/10/31(月) 19:49:39N-gramの時点で再現率(= 実際に検索された文書数 / 論理的な適合文書数 )は100%だし、
Nを変えても精度(= 検索結果中の適合文書数 / 実際に検索された文書数 )は変わらんやろ。
0469463
2005/10/31(月) 21:44:390470名無しさん@お腹いっぱい。
2005/11/01(火) 00:55:06それが真なら欧米言語でstemmingやっても効果がゼロの筈だよな。
0471名無しさん@お腹いっぱい。
2005/11/01(火) 01:47:18N-gramでやる必要はあんまりない。語幹だけ入力すれば検索できるから。
0472名無しさん@お腹いっぱい。
2005/11/01(火) 02:15:130473名無しさん@お腹いっぱい。
2005/11/01(火) 02:30:080474名無しさん@お腹いっぱい。
2005/11/01(火) 21:08:070475名無しさん@お腹いっぱい。
2005/11/02(水) 09:11:56>>468 とか。
情報検索の適合文書というのはクエリの本来の目的に対して定められるので
n-gramの時点で再現率が100%とかいってる時点でおかしい。
世の中にはブーリアン検索しか検索モデルが存在しないとでも思っていないと
468が満たされるような適合文書の定義にはならない。
0476名無しさん@お腹いっぱい。
2005/11/02(水) 18:30:39ブーリアン検索が最もポピュラーなモデルであることは真だろ。
特に断りがなければブーリアン検索を前提として議論しているって事態
別におかしいことでも何でもない。
0477名無しさん@お腹いっぱい。
2005/11/02(水) 18:48:56たとえそうだとしても検索モデルと独立に意味を定義された指標の定義を
変えるのは全くおかしいと思うが。
0478名無しさん@お腹いっぱい。
2005/11/07(月) 10:46:430479名無しさん@お腹いっぱい。
2005/11/07(月) 10:58:110480名無しさん@お腹いっぱい。
2005/11/07(月) 13:33:510481名無しさん@お腹いっぱい。
2005/11/08(火) 14:18:35Javaで書かれてるなら、ちょっといじればUNIXでも動きそうだな。
ソース公開してくれればいいのに。
0482名無しさん@お腹いっぱい。
2005/11/10(木) 01:07:31ローカルの文書って似たのがたくさんヒットして結果が見づらかったけど、
これならきちんと整理して表示されるから非常に見やすい。
0483名無しさん@お腹いっぱい。
2005/11/12(土) 01:04:440484名無しさん@お腹いっぱい。
2005/11/12(土) 02:16:350485名無しさん@お腹いっぱい。
2005/11/12(土) 21:48:400486名無しさん@お腹いっぱい。
2005/11/13(日) 17:41:50詳しく
0487名無しさん@お腹いっぱい。
2005/11/14(月) 01:06:07優れたオープンソース開発者を表彰する「2005年度日本OSS貢献者賞」
http://internet.watch.impress.co.jp/cda/news/2005/08/23/8876.html
この記事が最初出たときには
> 全文検索エンジン「Namazu」などの開発者である高林悟氏(グーグル)
と他の3人もそうだけど所属先が出ていたんだわ。その後間もなく所属先が
文章から削られて、しばらく後に名前の誤字が訂正された。
ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
インターンやっていたらしい。あとNAISTの先輩であるchalow作者の
山下達雄氏は現在Yahoo! Japanに在籍している。
0488名無しさん@お腹いっぱい。
2005/11/14(月) 01:24:38> ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
> インターンやっていたらしい。
アメリカ留学時にインターンやって、帰国してGoogle入りしたんでしょ。
0489名無しさん@お腹いっぱい。
2005/11/18(金) 01:53:59正規表現サポートの模様
0490名無しさん@お腹いっぱい。
2005/11/18(金) 02:33:40今 ML で話題になってるけど(つかこんな時間に流れてくるとわ…)
またちょっと互換性問題があるみたいね。
0491名無しさん@お腹いっぱい。
2005/11/18(金) 02:55:40QDBM http://qdbm.sourceforge.net/
の中に入ってるコマンドのことかー
0492名無しさん@お腹いっぱい。
2005/11/21(月) 00:03:550493名無しさん@お腹いっぱい。
2005/11/21(月) 03:47:180494名無しさん@お腹いっぱい。
2005/11/25(金) 10:23:52本当に10倍速くなったらすごいな。
0495名無しさん@お腹いっぱい。
2005/11/29(火) 11:07:550496名無しさん@お腹いっぱい。
2005/11/29(火) 18:07:39まず、HyperEstraierのドキュメントを読み、書いてある手順にしたがってインストールする。
それから、ナマズが対象にしていたファイルのインデックスをHyperEstraierで作りなおす。
0497名無しさん@お腹いっぱい。
2005/11/30(水) 22:35:59replaceの正規表現による置換で,前方参照の書き方がわかりません.
replace: ^file:///home/hoge/diary/html/([0-9]{4})/([0-9]{\
4})\.html{{!}}http://hoge.example/diary/\1\2.html
のような置換が書きたいです.
どのように書けばよいでしょうか.
なにか良い方法がありましたら,よろしくお願いします.
0498名無しさん@お腹いっぱい。
2005/11/30(水) 23:22:44ほんとだ。出来ると思って試してみたら \1 とかだめだね。
mod_rewrite で誤魔化すしかなさそう。
replace: は(たぶん)上から評価されていくから、お馬鹿な方法なんだけれども
replace: ^file:///home/hoge/diary/html/{{!}}http://hoge.example/diary/
replace: 1999/{{!}}1999
replace: 2000/{{!}}2000
replace: 2001/{{!}}2001
…
って延々やっていくとか。
regex 使える前はこれしか実際出来なかったし。
0499名無しさん@お腹いっぱい。
2005/11/30(水) 23:50:02他に$1なども試しては見たのですが無理でした.
とりあえず,>>498さんの方法を使わせていただき,
前方参照の方法に対応したら,そちらを使うことにします.
ありがとうございました.
0500名無しさん@お腹いっぱい。
2005/12/01(木) 00:00:50find /home/hoge/diary/html -type -f -name '*.html' -print |
perl -e '
while(<>){
chomp($_);
printf("%s", $_);
$_ =~ s/([0-9]+)\/([0-9]+)\.html$/\1\2.html/;
print $_;
}' |
estcmd gather -il ja -fh -px @uri casket -
0501名無しさん@お腹いっぱい。
2005/12/01(木) 00:20:24ほぅ、@uri に格納すればできたのかー
知らなかった。
0502名無しさん@お腹いっぱい。
2005/12/01(木) 00:26:49ありがとうございます.
もとの属性を変えてしまう,という方法ですね.
勉強になります.
0503名無しさん@お腹いっぱい。
2005/12/01(木) 00:42:20着手した人はいますか?
0504名無しさん@お腹いっぱい。
2005/12/01(木) 06:18:35estcmdじか打ちのスクリプト組んでgnome-terminalみたいなURIをリンクとして
読んでくれるターミナル使ったほうがよさげだし
UNIX環境ならelispアプリにする必要性を感じなかったな
0505名無しさん@お腹いっぱい。
2005/12/01(木) 09:31:190506名無しさん@お腹いっぱい。
2005/12/01(木) 09:32:29Firefoxの検索機能も今はミニバッファになったでしょ。
思考停止時間を最小にするのが目的だと思われ。
結果表示画面もEmacsならではの操作性にできるなら最高だ。
Mewとかと連携することもできるかもね。
0507名無しさん@お腹いっぱい。
2005/12/01(木) 10:31:41ファイル全体を文書にするんでなくて、個々のエントリを文書として扱ってほしい。
セーブする時に古いファイルとdiffとればどこのエントリが更新されたかわかるはずだから、
更新されたエントリだけを登録するようにできそう。
0508754
2005/12/01(木) 10:37:52オレはこれで満足してるけど。
0509名無しさん@お腹いっぱい。
2005/12/01(木) 16:06:270510名無しさん@お腹いっぱい。
2005/12/01(木) 19:41:33「Emacsインターフェイスのアイデア」
http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11333263561092714358
M-x est-search-migemoって、ものすごい数のOR検索をすることになるけど、
実用的速度で動くのかね。
一致文章絞り込み段階での論理演算の順番の変更による最適化なんかの問題も
あったね。
0511名無しさん@お腹いっぱい。
2005/12/11(日) 02:34:190512名無しさん@お腹いっぱい。
2005/12/11(日) 02:38:14インデックスの互換性がぬぁい orz
0513名無しさん@お腹いっぱい。
2005/12/11(日) 02:56:37WEBにはまとまった履歴があがってないし,
ChangeLogにはソースコードの変更が書かれているだけ.
普通の人が意味のわかるChangeLogならまだしも,
これは作った人以外には理解不能でしょう.
0514名無しさん@お腹いっぱい。
2005/12/11(日) 04:18:24そこがいつもネックなのだがねぇ。
ver1.1.1 の変更点みたいなものは作者ブログ?で・・・
ttp://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11342311101232356139
0515名無しさん@お腹いっぱい。
2005/12/11(日) 04:24:12確かにね。でも例えば Apache と比較しても、
http://www.apache.org/dist/httpd/CHANGES_2.2
それはたいして変わらないんじゃない?
httpd.conf を 2.0.5x から書き換える必要があるとか、
増えたディレクティヴが分かるわけではない。
0516名無しさん@お腹いっぱい。
2005/12/11(日) 09:30:29Webから参照できるだけど大違いだし、ソースレベルではない変更が書かれているし、
アップグレードに関することは別の文書としてまとまっているし。
0517名無しさん@お腹いっぱい。
2005/12/11(日) 11:00:40何から何まで真似する必要はないけど。
0518名無しさん@お腹いっぱい。
2005/12/11(日) 11:44:31普通の人むけのChangeLogはあまり重要と考えていないんじゃないかな。
ああいうChangeLogはソースのdiffと一緒に読んでねっていうノリだからね。
なんつーかオープンソースならではってことでおおらかに構えるか、
またはMLで情報の集積場所が欲しいとか訴えてみれば? 手伝うっていえば喜ぶでしょ
しかしApache Projectと比べてサポートが劣っているていうはかわいそうだよ...
0519名無しさん@お腹いっぱい。
2005/12/11(日) 11:48:24機能説明をするものではない。必要十分な情報を簡潔に書くのがよいとされる。
エンドユーザにわかるようにだらだら書くのはむしろ間違いだろ。
0520名無しさん@お腹いっぱい。
2005/12/11(日) 12:25:43作者の意欲が減退したりポンと消失したりすることがあることである。
まわりの人がサポートするケースのように思える。
メーリングリストとやらのメンバーたちは何をやっているのか?
クレクレ君の集まりなのか?
0521名無しさん@お腹いっぱい。
2005/12/11(日) 12:28:48形式は問わず、もう少し上のレベルの更新履歴が欲しいと言ってるだけ
それがChangeLogの形式で提供されててもいいかね、という程度
ChangeLogにしろ、という話ではない
0522名無しさん@お腹いっぱい。
2005/12/11(日) 12:29:180523名無しさん@お腹いっぱい。
2005/12/11(日) 13:49:250524名無しさん@お腹いっぱい。
2005/12/11(日) 14:24:520525名無しさん@お腹いっぱい。
2005/12/11(日) 14:28:51はデータベースを更新するたびに呼んだほうがいいのかな?
0526名無しさん@お腹いっぱい。
2005/12/11(日) 14:47:282回目以降は更新のあったものだけが処理される風味.
0527名無しさん@お腹いっぱい。
2005/12/11(日) 14:50:26多分そう。
ほとんどの項目は passed になるからそんなに時間かからないっぽ。
0528527
2005/12/11(日) 14:51:070529名無しさん@お腹いっぱい。
2005/12/11(日) 17:24:05ブログにしか書いてなく、しかもそれがWebサイトからでは
容易には辿り着けないことを問題としてるんだろう。
情報があっても、そこへの誘導が皆無であれば無いのと同じこと。
0530名無しさん@お腹いっぱい。
2005/12/11(日) 17:56:02いってほしい気がするけど。
0531名無しさん@お腹いっぱい。
2005/12/11(日) 18:02:41なぜそこで履歴に力を入れることになってるのか疑問。
0532名無しさん@お腹いっぱい。
2005/12/11(日) 18:12:180533名無しさん@お腹いっぱい。
2005/12/11(日) 18:15:30対応するのが一般的な方法論だって。
0534名無しさん@お腹いっぱい。
2005/12/11(日) 19:10:04キタコレ
0535名無しさん@お腹いっぱい。
2005/12/11(日) 19:19:49なんでそうやって論点をズラそうとするんだか
0536名無しさん@お腹いっぱい。
2005/12/11(日) 19:20:24そういう奴がウザいと思ったらきっとだれかが更新履歴とか、ブログの記事をまとめ始めるでしょ。
自分でやるのが嫌でも、そのくらいならできるでしょ。
煽りのつもりじゃないぞ
0537名無しさん@お腹いっぱい。
2005/12/11(日) 19:54:23てか、なんでそこまで履歴を分かりやすくすることに否定的なのか意味が分からん。
■ このスレッドは過去ログ倉庫に格納されています