全文検索エンジンEstraier
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0459名無しさん@お腹いっぱい。
2005/10/31(月) 02:03:15Hyperがあるのと無いのってどう違うの?
P2P対応か否か?
0460名無しさん@お腹いっぱい。
2005/10/31(月) 02:22:27でもやっぱり最大の違いがノードAPIであるのは間違いない。
HTTP ベースで管理できるということは コアAPI または コアAPIを使った言語バインディング を使わなくても
簡単に全文検索機能を持ったアプリケーションを開発できるということで、これは素晴らしいと思う。
もともとは P2P のために作られたのかもしれないけど、P2P で利用しなくても全文検索サーバだけを別に立てて運用できるし
コンソール、GUI、Webアプリ等々、異なるフロントエンドから同じインデックスを利用できたりと、かなり面白い。
0461名無しさん@お腹いっぱい。
2005/10/31(月) 02:45:09分けたindexを取りまとめて扱うのにはestmasterを使わなきゃいけないのは
ちょっと残念。
サーバープロセスとしてはメモリ食いすぎてないか?> estmaster
0462名無しさん@お腹いっぱい。
2005/10/31(月) 03:27:170463名無しさん@お腹いっぱい。
2005/10/31(月) 16:41:19mikioタソの日記を見ると形態素解析の価値も認めているから、tokenizerはLucene同様
入れ替え可能になったりして。つか、N-gramはCJKではそこそこ使えるけど、タイ語とか
インド諸言語などの場合はどうなんだろ?
0464名無しさん@お腹いっぱい。
2005/10/31(月) 16:43:220465名無しさん@お腹いっぱい。
2005/10/31(月) 18:28:01Unicodeに文字が入ってるなら問題はないんじゃない?
NグラムのNをいくつにするかは言語ごとに最適値があると思うけど、
性能(速度とDBのサイズ)がちょっと違うだけで、精度はいずれにしても一緒。
0466名無しさん@お腹いっぱい。
2005/10/31(月) 18:38:49なると思うが……。
0467名無しさん@お腹いっぱい。
2005/10/31(月) 19:23:380468名無しさん@お腹いっぱい。
2005/10/31(月) 19:49:39N-gramの時点で再現率(= 実際に検索された文書数 / 論理的な適合文書数 )は100%だし、
Nを変えても精度(= 検索結果中の適合文書数 / 実際に検索された文書数 )は変わらんやろ。
0469463
2005/10/31(月) 21:44:390470名無しさん@お腹いっぱい。
2005/11/01(火) 00:55:06それが真なら欧米言語でstemmingやっても効果がゼロの筈だよな。
0471名無しさん@お腹いっぱい。
2005/11/01(火) 01:47:18N-gramでやる必要はあんまりない。語幹だけ入力すれば検索できるから。
0472名無しさん@お腹いっぱい。
2005/11/01(火) 02:15:130473名無しさん@お腹いっぱい。
2005/11/01(火) 02:30:080474名無しさん@お腹いっぱい。
2005/11/01(火) 21:08:070475名無しさん@お腹いっぱい。
2005/11/02(水) 09:11:56>>468 とか。
情報検索の適合文書というのはクエリの本来の目的に対して定められるので
n-gramの時点で再現率が100%とかいってる時点でおかしい。
世の中にはブーリアン検索しか検索モデルが存在しないとでも思っていないと
468が満たされるような適合文書の定義にはならない。
0476名無しさん@お腹いっぱい。
2005/11/02(水) 18:30:39ブーリアン検索が最もポピュラーなモデルであることは真だろ。
特に断りがなければブーリアン検索を前提として議論しているって事態
別におかしいことでも何でもない。
0477名無しさん@お腹いっぱい。
2005/11/02(水) 18:48:56たとえそうだとしても検索モデルと独立に意味を定義された指標の定義を
変えるのは全くおかしいと思うが。
0478名無しさん@お腹いっぱい。
2005/11/07(月) 10:46:430479名無しさん@お腹いっぱい。
2005/11/07(月) 10:58:110480名無しさん@お腹いっぱい。
2005/11/07(月) 13:33:510481名無しさん@お腹いっぱい。
2005/11/08(火) 14:18:35Javaで書かれてるなら、ちょっといじればUNIXでも動きそうだな。
ソース公開してくれればいいのに。
0482名無しさん@お腹いっぱい。
2005/11/10(木) 01:07:31ローカルの文書って似たのがたくさんヒットして結果が見づらかったけど、
これならきちんと整理して表示されるから非常に見やすい。
0483名無しさん@お腹いっぱい。
2005/11/12(土) 01:04:440484名無しさん@お腹いっぱい。
2005/11/12(土) 02:16:350485名無しさん@お腹いっぱい。
2005/11/12(土) 21:48:400486名無しさん@お腹いっぱい。
2005/11/13(日) 17:41:50詳しく
0487名無しさん@お腹いっぱい。
2005/11/14(月) 01:06:07優れたオープンソース開発者を表彰する「2005年度日本OSS貢献者賞」
http://internet.watch.impress.co.jp/cda/news/2005/08/23/8876.html
この記事が最初出たときには
> 全文検索エンジン「Namazu」などの開発者である高林悟氏(グーグル)
と他の3人もそうだけど所属先が出ていたんだわ。その後間もなく所属先が
文章から削られて、しばらく後に名前の誤字が訂正された。
ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
インターンやっていたらしい。あとNAISTの先輩であるchalow作者の
山下達雄氏は現在Yahoo! Japanに在籍している。
0488名無しさん@お腹いっぱい。
2005/11/14(月) 01:24:38> ちなみに高林氏の友人でもあるPRIME作者の小松弘幸氏もGoogleで
> インターンやっていたらしい。
アメリカ留学時にインターンやって、帰国してGoogle入りしたんでしょ。
0489名無しさん@お腹いっぱい。
2005/11/18(金) 01:53:59正規表現サポートの模様
0490名無しさん@お腹いっぱい。
2005/11/18(金) 02:33:40今 ML で話題になってるけど(つかこんな時間に流れてくるとわ…)
またちょっと互換性問題があるみたいね。
0491名無しさん@お腹いっぱい。
2005/11/18(金) 02:55:40QDBM http://qdbm.sourceforge.net/
の中に入ってるコマンドのことかー
0492名無しさん@お腹いっぱい。
2005/11/21(月) 00:03:550493名無しさん@お腹いっぱい。
2005/11/21(月) 03:47:180494名無しさん@お腹いっぱい。
2005/11/25(金) 10:23:52本当に10倍速くなったらすごいな。
0495名無しさん@お腹いっぱい。
2005/11/29(火) 11:07:550496名無しさん@お腹いっぱい。
2005/11/29(火) 18:07:39まず、HyperEstraierのドキュメントを読み、書いてある手順にしたがってインストールする。
それから、ナマズが対象にしていたファイルのインデックスをHyperEstraierで作りなおす。
0497名無しさん@お腹いっぱい。
2005/11/30(水) 22:35:59replaceの正規表現による置換で,前方参照の書き方がわかりません.
replace: ^file:///home/hoge/diary/html/([0-9]{4})/([0-9]{\
4})\.html{{!}}http://hoge.example/diary/\1\2.html
のような置換が書きたいです.
どのように書けばよいでしょうか.
なにか良い方法がありましたら,よろしくお願いします.
0498名無しさん@お腹いっぱい。
2005/11/30(水) 23:22:44ほんとだ。出来ると思って試してみたら \1 とかだめだね。
mod_rewrite で誤魔化すしかなさそう。
replace: は(たぶん)上から評価されていくから、お馬鹿な方法なんだけれども
replace: ^file:///home/hoge/diary/html/{{!}}http://hoge.example/diary/
replace: 1999/{{!}}1999
replace: 2000/{{!}}2000
replace: 2001/{{!}}2001
…
って延々やっていくとか。
regex 使える前はこれしか実際出来なかったし。
0499名無しさん@お腹いっぱい。
2005/11/30(水) 23:50:02他に$1なども試しては見たのですが無理でした.
とりあえず,>>498さんの方法を使わせていただき,
前方参照の方法に対応したら,そちらを使うことにします.
ありがとうございました.
0500名無しさん@お腹いっぱい。
2005/12/01(木) 00:00:50find /home/hoge/diary/html -type -f -name '*.html' -print |
perl -e '
while(<>){
chomp($_);
printf("%s", $_);
$_ =~ s/([0-9]+)\/([0-9]+)\.html$/\1\2.html/;
print $_;
}' |
estcmd gather -il ja -fh -px @uri casket -
0501名無しさん@お腹いっぱい。
2005/12/01(木) 00:20:24ほぅ、@uri に格納すればできたのかー
知らなかった。
0502名無しさん@お腹いっぱい。
2005/12/01(木) 00:26:49ありがとうございます.
もとの属性を変えてしまう,という方法ですね.
勉強になります.
0503名無しさん@お腹いっぱい。
2005/12/01(木) 00:42:20着手した人はいますか?
0504名無しさん@お腹いっぱい。
2005/12/01(木) 06:18:35estcmdじか打ちのスクリプト組んでgnome-terminalみたいなURIをリンクとして
読んでくれるターミナル使ったほうがよさげだし
UNIX環境ならelispアプリにする必要性を感じなかったな
0505名無しさん@お腹いっぱい。
2005/12/01(木) 09:31:190506名無しさん@お腹いっぱい。
2005/12/01(木) 09:32:29Firefoxの検索機能も今はミニバッファになったでしょ。
思考停止時間を最小にするのが目的だと思われ。
結果表示画面もEmacsならではの操作性にできるなら最高だ。
Mewとかと連携することもできるかもね。
0507名無しさん@お腹いっぱい。
2005/12/01(木) 10:31:41ファイル全体を文書にするんでなくて、個々のエントリを文書として扱ってほしい。
セーブする時に古いファイルとdiffとればどこのエントリが更新されたかわかるはずだから、
更新されたエントリだけを登録するようにできそう。
0508754
2005/12/01(木) 10:37:52オレはこれで満足してるけど。
0509名無しさん@お腹いっぱい。
2005/12/01(木) 16:06:270510名無しさん@お腹いっぱい。
2005/12/01(木) 19:41:33「Emacsインターフェイスのアイデア」
http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11333263561092714358
M-x est-search-migemoって、ものすごい数のOR検索をすることになるけど、
実用的速度で動くのかね。
一致文章絞り込み段階での論理演算の順番の変更による最適化なんかの問題も
あったね。
0511名無しさん@お腹いっぱい。
2005/12/11(日) 02:34:190512名無しさん@お腹いっぱい。
2005/12/11(日) 02:38:14インデックスの互換性がぬぁい orz
0513名無しさん@お腹いっぱい。
2005/12/11(日) 02:56:37WEBにはまとまった履歴があがってないし,
ChangeLogにはソースコードの変更が書かれているだけ.
普通の人が意味のわかるChangeLogならまだしも,
これは作った人以外には理解不能でしょう.
0514名無しさん@お腹いっぱい。
2005/12/11(日) 04:18:24そこがいつもネックなのだがねぇ。
ver1.1.1 の変更点みたいなものは作者ブログ?で・・・
ttp://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11342311101232356139
0515名無しさん@お腹いっぱい。
2005/12/11(日) 04:24:12確かにね。でも例えば Apache と比較しても、
http://www.apache.org/dist/httpd/CHANGES_2.2
それはたいして変わらないんじゃない?
httpd.conf を 2.0.5x から書き換える必要があるとか、
増えたディレクティヴが分かるわけではない。
0516名無しさん@お腹いっぱい。
2005/12/11(日) 09:30:29Webから参照できるだけど大違いだし、ソースレベルではない変更が書かれているし、
アップグレードに関することは別の文書としてまとまっているし。
0517名無しさん@お腹いっぱい。
2005/12/11(日) 11:00:40何から何まで真似する必要はないけど。
0518名無しさん@お腹いっぱい。
2005/12/11(日) 11:44:31普通の人むけのChangeLogはあまり重要と考えていないんじゃないかな。
ああいうChangeLogはソースのdiffと一緒に読んでねっていうノリだからね。
なんつーかオープンソースならではってことでおおらかに構えるか、
またはMLで情報の集積場所が欲しいとか訴えてみれば? 手伝うっていえば喜ぶでしょ
しかしApache Projectと比べてサポートが劣っているていうはかわいそうだよ...
0519名無しさん@お腹いっぱい。
2005/12/11(日) 11:48:24機能説明をするものではない。必要十分な情報を簡潔に書くのがよいとされる。
エンドユーザにわかるようにだらだら書くのはむしろ間違いだろ。
0520名無しさん@お腹いっぱい。
2005/12/11(日) 12:25:43作者の意欲が減退したりポンと消失したりすることがあることである。
まわりの人がサポートするケースのように思える。
メーリングリストとやらのメンバーたちは何をやっているのか?
クレクレ君の集まりなのか?
0521名無しさん@お腹いっぱい。
2005/12/11(日) 12:28:48形式は問わず、もう少し上のレベルの更新履歴が欲しいと言ってるだけ
それがChangeLogの形式で提供されててもいいかね、という程度
ChangeLogにしろ、という話ではない
0522名無しさん@お腹いっぱい。
2005/12/11(日) 12:29:180523名無しさん@お腹いっぱい。
2005/12/11(日) 13:49:250524名無しさん@お腹いっぱい。
2005/12/11(日) 14:24:520525名無しさん@お腹いっぱい。
2005/12/11(日) 14:28:51はデータベースを更新するたびに呼んだほうがいいのかな?
0526名無しさん@お腹いっぱい。
2005/12/11(日) 14:47:282回目以降は更新のあったものだけが処理される風味.
0527名無しさん@お腹いっぱい。
2005/12/11(日) 14:50:26多分そう。
ほとんどの項目は passed になるからそんなに時間かからないっぽ。
0528527
2005/12/11(日) 14:51:070529名無しさん@お腹いっぱい。
2005/12/11(日) 17:24:05ブログにしか書いてなく、しかもそれがWebサイトからでは
容易には辿り着けないことを問題としてるんだろう。
情報があっても、そこへの誘導が皆無であれば無いのと同じこと。
0530名無しさん@お腹いっぱい。
2005/12/11(日) 17:56:02いってほしい気がするけど。
0531名無しさん@お腹いっぱい。
2005/12/11(日) 18:02:41なぜそこで履歴に力を入れることになってるのか疑問。
0532名無しさん@お腹いっぱい。
2005/12/11(日) 18:12:180533名無しさん@お腹いっぱい。
2005/12/11(日) 18:15:30対応するのが一般的な方法論だって。
0534名無しさん@お腹いっぱい。
2005/12/11(日) 19:10:04キタコレ
0535名無しさん@お腹いっぱい。
2005/12/11(日) 19:19:49なんでそうやって論点をズラそうとするんだか
0536名無しさん@お腹いっぱい。
2005/12/11(日) 19:20:24そういう奴がウザいと思ったらきっとだれかが更新履歴とか、ブログの記事をまとめ始めるでしょ。
自分でやるのが嫌でも、そのくらいならできるでしょ。
煽りのつもりじゃないぞ
0537名無しさん@お腹いっぱい。
2005/12/11(日) 19:54:23てか、なんでそこまで履歴を分かりやすくすることに否定的なのか意味が分からん。
0538名無しさん@お腹いっぱい。
2005/12/11(日) 19:59:320539名無しさん@お腹いっぱい。
2005/12/11(日) 20:48:270540名無しさん@お腹いっぱい。
2005/12/11(日) 21:43:11とりあえず更新のたびに関連するブログのエントリへのリンクのリストを並べるだけでいいじゃん。
おれも個人的にはなぜそこまでくわしい履歴が欲しいのかCとRuby経由からしか
使ってないからよくわからん。
だがアプリケーションとして普及させるならサポートは厚い方がいいに決まってるよね。
しかし、作者は全文検索アプリのためのAPIとして見てほしくて、インターフェイスは単なるデモ
みたいな発言をしていたよ。
それが不満なら...作者に直接声の届くmlか、直接メールするかして、
その上で作者が乗り気でないなら乗り換えるしかない気がするが。
ああ、いやもちろんプロジェクトをフォークする自由は常にある。LGPLだからね。
0541名無しさん@お腹いっぱい。
2005/12/11(日) 22:25:45どこがどう変わったのか知りたいと思うのは普通じゃないの?
その変更点がWebから簡単に参照できればよいね、ってだけの話でしょ。
0542GNU coding standardのChangeLogの説明
2005/12/11(日) 22:52:40変更についての説明が必要だと思うこともあるでしょう. その場合,おそらくその通りでしょう.
大いに説明を書いてください. ただし,その説明は,プログラム中にコメント文として書いてください.
そうすれば,プログラムを読む人は必ずそのコメント文を見ることになるからです. 例えば,関数を
一個追加したとき,変更履歴には "New function" と書けば充分です.その関数が何をする関数かの
説明はソースコード中で, その関数の定義の前にコメントとして書かれているはずだからです.
0543名無しさん@お腹いっぱい。
2005/12/11(日) 22:55:05ソースを読まずにChangeLogだけ読んで、「こんなんじゃ書いた本人しか分からん」
というのは筋違いだし、クレクレ君の典型だ。541の要求はもっともだが、そういう
書き出しから始まっているあたりが反感を買ったんだろう。
0544名無しさん@お腹いっぱい。
2005/12/11(日) 23:15:340545名無しさん@お腹いっぱい。
2005/12/11(日) 23:30:390546名無しさん@お腹いっぱい。
2005/12/11(日) 23:42:03ChangeLogと違ってユーザ向けのNEWSは更新を確実にするチャンスがないから。
粒度もChangeLogとは合致しないし、開発中はユーザにとっての変更が出る筈で
はなくても後からみてNEWSに書くべきことが発生していたというのもあり得る。
blogなら、ここに書いてなかったのに変わっとるのは怪しからん! という奴は
いないが、NEWSにしたら絶対そういう奴が出てくるだろうから、開発者が
無理なくそういう変更を拾って記述できるようなアイデアをセットで提案しないと。
0547名無しさん@お腹いっぱい。
2005/12/12(月) 00:34:02それを誰がやるのかっていうのはこれは大問題だよね。
マジで言い出しっぺがやってくださいよ。お願いしますよ。
たしかにその要求はもっともだからさ。
あと>>544 == >>541 だったならば、>>542は
論点へいたる前提を論じてるのだと思うよ。
0548名無しさん@お腹いっぱい。
2005/12/12(月) 01:51:500549名無しさん@お腹いっぱい。
2005/12/12(月) 03:54:390550名無しさん@お腹いっぱい。
2005/12/12(月) 04:29:19> メーリングリストとやらのメンバーたちは何をやっているのか?
> クレクレ君の集まりなのか?
> だからこういうパターンでは、周辺がサポートすることで
> 対応するのが一般的な方法論だって。
周辺とかまわりのひとってなんなのかね?
発言してる本人はどれにも該当しない第三者なの?
>>549
ML には
> なお、Windows版バイナリではMeCabのサポートはしていません。
となってる。
0551名無しさん@お腹いっぱい。
2005/12/12(月) 13:11:08> 周辺とかまわりのひとってなんなのかね?
> 発言してる本人はどれにも該当しない第三者なの?
そうだろうな。開発に参加していないくせに指示だけ出すやつだろ。
こういうやつは相手にしちゃいけない。コードを書かないやつは無視。
0552名無しさん@お腹いっぱい。
2005/12/12(月) 13:25:19「発言してる本人」が
「サポート」が必要だと感じてるとは限らんでしょ。
0553名無しさん@お腹いっぱい。
2005/12/12(月) 13:28:160554名無しさん@お腹いっぱい。
2005/12/12(月) 14:20:51そんなこと言ってたら、ユーザは何も要望を出せなくなるだろ。
OSSはユーザのフィードバックがあってナンボなんだから、そんな偏狭な
姿勢ではプロジェクトは盛り上がってこないでしょ。
いろんな提案が出されることは歓迎すべきで、それを採用するかどうかは開発者の自由。
0555名無しさん@お腹いっぱい。
2005/12/12(月) 15:54:28要望ならいいんじゃね?
0556名無しさん@お腹いっぱい。
2005/12/12(月) 16:06:16> OSSはユーザのフィードバックがあってナンボなんだから、そんな偏狭な
そんな事はない。ユーザなど何の役にもたたないことがほとんど。
> 姿勢ではプロジェクトは盛り上がってこないでしょ。
ユーザゼロでも盛り上がる。
> いろんな提案が出されることは歓迎すべきで、それを採用するかどうかは開発者の自由。
いろんな提案が出されることを歓迎するかどうかは開発者の自由。
0557名無しさん@お腹いっぱい。
2005/12/12(月) 16:19:37キミがOSSの開発者だったとしたら、普通の人の反応としては、
その製品は使いたくないし、開発に貢献したいとも思わないってなるんじゃないかな。
ユーザがいなくていいならそもそも公開なんてしないっしょ。
0558名無しさん@お腹いっぱい。
2005/12/12(月) 16:25:36お前のような傲慢なやつは、ユーザにそっぽ向かれて消えるだけ。
オープンソースはユーザに使っていただいているものなのだから、
ユーザに対する謙虚な姿勢を忘れたら存在する意味は無い。
消えな。
■ このスレッドは過去ログ倉庫に格納されています