全文検索エンジンEstraier
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0182名無しさん@お腹いっぱい。
2005/04/18(月) 06:23:550183名無しさん@お腹いっぱい。
2005/04/18(月) 07:52:57嫌になる。
バッドノウハウのかたまりだもんな。>autoconf一味
0184名無しさん@お腹いっぱい。
2005/04/18(月) 11:22:50バッドノウハウとかいう人はもっとウザい。
0185名無しさん@お腹いっぱい。
2005/04/19(火) 10:08:120186名無しさん@お腹いっぱい。
2005/04/19(火) 11:19:350187名無しさん@お腹いっぱい。
2005/04/19(火) 21:27:33内部で勝手にMutex使われていると性能が出なかったりして、API自体をいじらないといけなくなる。
本家にパッチ送って反映待ちになるのも面倒いから、自分で好きにいじれる方が、、、
0188名無しさん@お腹いっぱい。
2005/04/20(水) 15:06:100189名無しさん@お腹いっぱい。
2005/04/20(水) 17:02:10つ【http://pc8.2ch.net/test/read.cgi/linux/1036088927/】
0190名無しさん@お腹いっぱい。
2005/04/20(水) 17:44:09スケーラビリティの点から見るとたしかに日記に書いてあるような
サーバークライアント方式の導入は正しいように思えるね。
mnogosearch見たいな感じになるのかしらん。
やっぱノードAPI待ちかな。それともTigerが出たらSpotlightとSearchKitに
浮気しようかな。正直迷うな
0191名無しさん@お腹いっぱい。
2005/04/20(水) 18:15:040192名無しさん@お腹いっぱい。
2005/04/24(日) 02:24:32サーバ方式にしてもスケーラビリティは上がらないんじゃない?
検索速度は上がるかもしれないけど、ネットワークの負荷を考えると微妙。
0193名無しさん@お腹いっぱい。
2005/04/25(月) 04:38:56と思うよ。そもそもデータベースのスケールによらず一定だし。
コアAPIの守備範囲であるローカルホストならなおさらじゃない?
0194名無しさん@お腹いっぱい。
2005/04/25(月) 10:24:35それと、DBとは別のマシンでアプリケーションを動かせだろうから、フィルタと登録を
パイプライン的にやれば効率いいかもね。
秒速104文書登録ってのをどこまで維持できるかが見もの。
0195名無しさん@お腹いっぱい。
2005/05/02(月) 10:13:170196名無しさん@お腹いっぱい。
2005/05/02(月) 20:03:29大体Hyper...のほうが倍くらい早いかなて感じだ(当社比)。
0197名無しさん@お腹いっぱい。
2005/05/02(月) 20:23:550198名無しさん@お腹いっぱい。
2005/05/02(月) 20:54:06ってことでわ?
0199名無しさん@お腹いっぱい。
2005/05/03(火) 11:59:48コンソールとXで動くやつもあると嬉しいんだが。
0200名無しさん@お腹いっぱい。
2005/05/03(火) 12:35:570201名無しさん@お腹いっぱい。
2005/05/03(火) 12:37:350202名無しさん@お腹いっぱい。
2005/05/03(火) 13:09:05sym link をdereferenceしないようにお願い
したいんだが、どうすれば良い?
0203名無しさん@お腹いっぱい。
2005/05/04(水) 16:46:010204202
2005/05/04(水) 20:12:26realpath()を呼んでるからだ、つうとこまでは分かった
んだが、絶対パスに展開するのやめさすと各方面に
色々面倒が起きそうな希ガス。
>>203の言うとおり、作者に頼むしかないかな。
0205名無しさん@お腹いっぱい。
2005/05/04(水) 21:30:07MLに投げれば対応してくれるかも。
0206名無しさん@お腹いっぱい。
2005/05/08(日) 11:02:500207名無しさん@お腹いっぱい。
2005/05/08(日) 18:34:26高林さんとかの JavaScript を参考に組めば出来ると思うけど、
たぶんめっちゃおもくなるとおもわれ。
0208名無しさん@お腹いっぱい。
2005/05/08(日) 20:54:44>>201 は Ajax なインターフェースのことを言ってると思われ。
0210名無しさん@お腹いっぱい。
2005/05/08(日) 21:01:23> 高林さんとかの JavaScript を参考に組めば出来ると思うけど、
> たぶんめっちゃおもくなるとおもわれ。
migemoのアイデアって、1990年ころに、プライベートな
研究会で見たことがあるよ。いや、べつにそっちの方が
先だとか言いたいわけではない。みんな同じことを考え
ていたんだということ。で、「たぶんめっちゃおもくな
るとおもわれ」とコメントされ、それで終わっていた。
0211名無しさん@お腹いっぱい。
2005/05/08(日) 21:46:12ありゃ、違うのか。 >>208 で合ってたのかな。
0212名無しさん@お腹いっぱい。
2005/05/08(日) 22:30:05onChangeイベントでsubmitするだけでしょ?
たぶんめっちゃおもくなるとおもわれるけど。
0213名無しさん@お腹いっぱい。
2005/05/08(日) 22:34:28ただ、インクリメンタルにする意義が感じられなくて結局使ってないけど。
0214名無しさん@お腹いっぱい。
2005/05/08(日) 22:42:49エディタで使うみたいに、一個のファイルの中をインクリメンタル検索するのは便利
なんだけど、不特定多数の文書をファイルを対象にた場合は意味がない。
インクリメンタルである利点は、前後関係が確定している場合にのみ享受できる。
0215名無しさん@お腹いっぱい。
2005/05/08(日) 23:39:230216名無しさん@お腹いっぱい。
2005/05/08(日) 23:41:20あれは単なるけばけばしい包装、はなばなしいだけの
ファンファーレ。
そんなものをほしがるやつには、UNIXを使う資格はない。
0217名無しさん@お腹いっぱい。
2005/05/08(日) 23:50:04と思うんだけど、みんなは違うの?
0218名無しさん@お腹いっぱい。
2005/05/08(日) 23:58:20俺の言う事を最後まで聞け(ゴルァ と思う事多し
動的なインターフェイスは使用者に掛かる負荷が大きいんだよね
何も考えずにインクリメンタルサーチ使える人は正直感心する
0219名無しさん@お腹いっぱい。
2005/05/09(月) 00:14:290220名無しさん@お腹いっぱい。
2005/05/09(月) 01:27:21チュートリアルにそれに関した記述が見当たらなかったんだけどやっぱり無いのかな。
0221名無しさん@お腹いっぱい。
2005/05/09(月) 01:55:120222名無しさん@お腹いっぱい。
2005/05/10(火) 11:37:13してその分だけ更新するようにできないかな。
0223名無しさん@お腹いっぱい。
2005/05/10(火) 12:03:00もちろんできるでしょ。
0224名無しさん@お腹いっぱい。
2005/05/10(火) 12:38:460225名無しさん@お腹いっぱい。
2005/05/10(火) 13:04:17そう思うなら、口を閉じて引っ込んでろ。
0226名無しさん@お腹いっぱい。
2005/05/10(火) 13:34:10FAM:http://techpubs.sgi.com/library/tpl/cgi-bin/getdoc.cgi?coll=0650&db=bks&fname=/SGI_Developer/books/IIDsktp_IG/sgi_html/ch08.html
gamin:http://www.gnome.org/~veillard/gamin/
いずれにせよOS依存なので、自分の環境にかなり精通していないと難しいだろう。
Google Desktop Searchはどうやってるのか知ってる?
0227名無しさん@お腹いっぱい。
2005/05/10(火) 13:51:17なにそんなカリカリしてるの?
0228222
2005/05/10(火) 14:26:13どうもです。でもプログラミングしないといけないのは辛いですね。
過去1時間に更新された更新ファイルのパスのリストがどっかのファイル
に記録されているような仕様だったら嬉しいのですが。
あ、ちなみに225は私じゃないですよ。
0229名無しさん@お腹いっぱい。
2005/05/10(火) 14:41:52それどうやるの?
0230名無しさん@お腹いっぱい。
2005/05/10(火) 15:02:09Beagleは使える環境の場合はInotifyを使うみたい。
0231名無しさん@お腹いっぱい。
2005/05/10(火) 16:15:10inotifyでもそこんとこは変わってないよね?
監視対象を再帰的に広げるよりは、定期的にfindした方が負荷が小さいような。
0232名無しさん@お腹いっぱい。
2005/05/10(火) 16:32:35そう思うなら、口を閉じて引っ込んでろ。
0233名無しさん@お腹いっぱい。
2005/05/10(火) 16:40:20軽量高速な更新検出手段の探求/実現が必要ですねッ!!
0234名無しさん@お腹いっぱい。
2005/05/10(火) 16:47:45ガンバレー!!
0235名無しさん@お腹いっぱい。
2005/05/10(火) 17:44:25明示的に更新を通知する手段と、更新頻度が高い場所は巡回頻度も高めると
いった工夫を併用すればかなり使いやすくなるんじゃない?
0236名無しさん@お腹いっぱい。
2005/05/10(火) 17:54:10そうカリカリすんなよ。歯痛にでもなったか?
0237名無しさん@お腹いっぱい。
2005/05/10(火) 23:44:55仕組みになってたと思う。
0238名無しさん@お腹いっぱい。
2005/05/11(水) 18:00:030239名無しさん@お腹いっぱい。
2005/05/11(水) 18:20:12わかった。全部お前にまかすわ。あとはよろしくな。
0240名無しさん@お腹いっぱい。
2005/05/11(水) 18:24:58ハンドリングするプラグインを扱う枠組みだな。
0241名無しさん@お腹いっぱい。
2005/05/11(水) 18:29:16わかった。そっちはお前にまかすわ。あとはよろしくな。
0242名無しさん@お腹いっぱい。
2005/05/11(水) 18:53:11プラグイン機構は不要だと思われる。
それよりPerlかRubyのバインディングを早く出してほしい。
0243名無しさん@お腹いっぱい。
2005/05/11(水) 19:57:37いや、じゃなくて、新しい文書扱いシステムを作った側が、
検索エンジンがそれを効率良く扱えるように
一連の設定やプログラミングを行なう枠組みが
いるのではないかという話だ。
0244242
2005/05/11(水) 22:48:38更新処理をトリガとして関数が呼ばれる仕組みが大抵のDBには備わっているけど、
一般的な文書扱いシステムではどうなんだろう。
0245名無しさん@お腹いっぱい。
2005/05/12(木) 11:45:47select() かけることで対応できないかなあ。
0246名無しさん@お腹いっぱい。
2005/05/12(木) 12:18:150247名無しさん@お腹いっぱい。
2005/05/14(土) 02:55:39Rast: A full-text search system
ttp://www.netlab.jp/rast/
●検索対象となる文書の分野や言語を選ばない
テキストデータを n 個の文字の並びである N-gram に分割して検索を行うため,「検索漏れが生じない」,「辞書の整備が必要ない」という特徴がある N-gram 方式を選べます.
これにより,検索対象となる文書の分野や言語を選ばずに広く利用することができます.
●多様なファイル形式への対応
HTML や Microsoft Word といった多様なファイル形式の文書からテキストデータやタイトルや作成日などの属性情報を抽出し,検索対象にできます.
●全文検索ライブラリの提供
C 言語と Ruby で利用可能な全文検索ライブラリを提供することにより,本ソフトウェアを利用した全文検索を行うアプリケーションを開発することができます.
さらに,ライブラリの利用例として,過去のメールを全文検索できる電子メールソフトを開発します.
●インクリメンタルな文書の追加登録
作成したデータベースに対して,インクリメンタルに文書の追加登録ができます.このため,一度作成したデータベースを作成し直す必要がありません.
誰か試して
0248名無しさん@お腹いっぱい。
2005/05/14(土) 03:58:31C APIを提供してるわりにクライアントライブラリまでGPLなのはちょっと痛い。
せめてXMLRPCの仕様を公開してほしいが、だったらEstraierのノードAPIを
待った方が幸せになれそう。
Matzのお膝元のnetlabで開発してるので、Rubyを使ったアプリケーションが
いろいろ出回ってきたら面白くなるのかもしれない。
0249名無しさん@お腹いっぱい。
2005/05/14(土) 17:02:09とか言われた時点でもう、センスつうか趣味
つうか合わないを思いますわ、パスですわ
>>247
0250名無しさん@お腹いっぱい。
2005/05/14(土) 17:18:490251名無しさん@お腹いっぱい。
2005/05/14(土) 19:50:070252名無しさん@お腹いっぱい。
2005/05/14(土) 20:45:230253名無しさん@お腹いっぱい。
2005/05/14(土) 22:58:21ML archive も落ちてる。
0254名無しさん@お腹いっぱい。
2005/05/14(土) 23:58:140256254
2005/05/17(火) 00:09:150257名無しさん@お腹いっぱい。
2005/05/25(水) 10:37:35http://hyperestraier.sourceforge.net/
0258名無しさん@お腹いっぱい。
2005/05/25(水) 16:35:210259名無しさん@お腹いっぱい。
2005/05/25(水) 22:28:14SUGEEEEEEEEEEE!!!!!!!
0260名無しさん@お腹いっぱい。
2005/05/27(金) 18:44:350261名無しさん@お腹いっぱい。
2005/05/31(火) 23:04:020262名無しさん@お腹いっぱい。
2005/06/01(水) 11:26:516/2 13:00〜 「全文検索システム Rast の設計と実装」
6/3 10:00〜 「全文検索 BOF」
などという企画をやってる。
0263名無しさん@お腹いっぱい。
2005/06/04(土) 22:50:240264名無しさん@お腹いっぱい。
2005/06/04(土) 23:10:40(□←ばかり)どうしてか教えてください。
0265名無しさん@お腹いっぱい。
2005/06/05(日) 00:05:250266名無しさん@お腹いっぱい。
2005/06/05(日) 00:20:490267名無しさん@お腹いっぱい。
2005/06/05(日) 00:54:33「電車男」という映画を見に行くとなにかヒントが得られるかもしれません。
0268名無しさん@お腹いっぱい。
2005/06/05(日) 18:28:53並列化できればGoogleとかに匹敵するんじゃないか?
0269名無しさん@お腹いっぱい。
2005/06/06(月) 10:22:14全文検索BOFでは、NAMAZU開発者とRast開発者とHyper Estraierの開発者が
一堂に会して、開発思想とかを語ってくれた。
ただ、2時間もあった割には突っ込んだ話ができず、薄かった感じがする。
0270名無しさん@お腹いっぱい。
2005/06/10(金) 22:35:21http://tokuhirom.dnsalias.org/~tokuhirom/tokulog/1193.html
0271名無しさん@お腹いっぱい。
2005/06/10(金) 23:07:46Rastと違ってAPIがリモートとローカルで違うらしいから、
やっぱノードAPIを待った方がいいんじゃないかと思う。
0272名無しさん@お腹いっぱい。
2005/06/10(金) 23:27:57RubyとかだとHTTPサーバのツールキットもあるわけだし。
0273名無しさん@お腹いっぱい。
2005/06/11(土) 10:40:11バインディングをわざわざ選ぶかなぁ?
むしろスクリプトで書いたプログラムにいちいちサーバ立てるのやってらんないという
面倒くさがり向きなんじゃないの。
0274名無しさん@お腹いっぱい。
2005/06/11(土) 16:42:53Cでなんてやってられない。
0275名無しさん@お腹いっぱい。
2005/06/12(日) 03:31:38ちょうどいいから rast のソースでも読んでみなよ。
といいながらも ruby が楽しくなりつつある今日この頃です。
0276名無しさん@お腹いっぱい。
2005/06/12(日) 09:49:52WEBrick+HyperEstraierとかWEBrick+Rastってのが強力かつ簡単でよさげ。
0277名無しさん@お腹いっぱい。
2005/06/12(日) 15:35:53ライセンス問題?
0278名無しさん@お腹いっぱい。
2005/06/12(日) 23:07:120279名無しさん@お腹いっぱい。
2005/06/24(金) 07:37:52まだ作りこみが甘い感じだけど、今後に期待age。
http://www.mitsuki.no-ip.com/~seagull/software-archives/hyperestraier/gdestraier.html
0280名無しさん@お腹いっぱい。
2005/06/24(金) 09:56:050281名無しさん@お腹いっぱい。
2005/07/04(月) 01:40:52open/closeシステムコールをを監視してスポットライト風にインクリメンタルアップデートが
できると面白そう。ガンガレ。
まずは更新があったファイルを指定するとその情報のみをアップデートする機能が
必要だな。既存のものだと全部を指定してアップデートする方法しか用意されてないからな。
■ このスレッドは過去ログ倉庫に格納されています