トップページunix
987コメント301KB

全文検索エンジンEstraier

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0588名無しさん@お腹いっぱい。2005/12/22(木) 16:39:31
今のYahooはマシな方だと思うが。

infoseekやgooはキチガイみたいに検索結果と関係ない情報がひっついてる。
0589名無しさん@お腹いっぱい。2005/12/26(月) 11:38:03
Estraier1.2.29出たね。Hyperからのバックポートぽい。
0590名無しさん@お腹いっぱい。2005/12/26(月) 22:34:58
>>588
そうねYahooはよくなってると思う
googleは一時よりかなり劣化してる感が否めない
0591名無しさん@お腹いっぱい。2005/12/28(水) 00:41:19
プギャァァァァァァァァァァァlハッハッハッハッハッハッハハハハh!!!!!^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ

先日会社の上司の娘が病気で死んだ、心底どうでもいい事だったが心優しい俺は葬式に出てやった。
すると会社じゃ威張り散らしてる奴が娘(だった物)にすがりついてビービー泣いてるんですよwwwwwww
必死に笑いを堪えつつ仕込んでいたネタを使う。

俺「これ・・娘さんがディズニーのキャラクター好きだって言ってましたよね。」
ミッキーのぬいぐるみセットをスッと差し出す。
俺「もたせてあげてください・・きっと喜んでもらえると思うんです・・」
上「う、う・・・す、すまない・・・ありがとう・・・・」

プププギャギャーm9^ ^
そんなこんなでご冥福をわざわざお祈りしてやったわけだが、今度会社に来たこいつにどんな言葉をかけてやったらいいと思う?
なるべく俺の利益になるよう事を運びたいんだが



コイツリアル基地外だお!(;^ω^)
おまいらの力で懲らしめてほしいお!

嫌いな上司の娘が死んだ
http://news18.2ch.net/test/read.cgi/news7/1135513179/
0592名無しさん@お腹いっぱい。2005/12/29(木) 03:25:58
心底どうでもいいまで読んだ。
0593名無しさん@お腹いっぱい。2006/01/08(日) 06:26:04
超幾何学的迷子
0594名無しさん@お腹いっぱい。2006/02/23(木) 17:03:09
1.1.3出たー!
0595名無しさん@お腹いっぱい。2006/02/24(金) 02:10:46
そして本家index.ja.htmlのタイトルがもう
なにがなんだかわからない件
0596名無しさん@お腹いっぱい。2006/02/24(金) 09:16:16
これで Estraier の読みがわかりました。
0597名無しさん@お腹いっぱい。2006/02/25(土) 08:10:24
>>596 それは何?
0598名無しさん@お腹いっぱい。2006/02/25(土) 10:34:47
あれ?もうタイトル戻ってるね。
0599名無しさん@お腹いっぱい。2006/02/25(土) 12:01:35
>>598
ソース見るとわかるけどアレ結構お遊び仕組まれてるぞ
0600名無しさん@お腹いっぱい。2006/02/25(土) 16:13:55
>>596
「牌破衛須都隸亜」らしい。
0601名無しさん@お腹いっぱい。2006/02/25(土) 21:33:49
うほっ、インデックスファイルの方がでかくなった
0602名無しさん@お腹いっぱい。2006/03/09(木) 18:14:10
1.1.4でた。
また開発速度上げてきたね。
0603名無しさん@お腹いっぱい。2006/03/11(土) 20:29:48
初心者でつ。これって、ローカルでapacheみたいなhttpdを立てなければいけないんですか?
0604名無しさん@お腹いっぱい。2006/03/11(土) 22:03:30
「これ」が何を指すかによって答えが変わる。
1. ふつうにDBへアクセスするだけならサーバは要らない。
2. ふつうのP2P機能なら別途専用のサーバを立てて運用する。httpだが80番は使わない。
3. apache 用の mod_estraier も開発されているので、それを使えばやっぱり apache でOK。
0605名無しさん@お腹いっぱい。2006/03/11(土) 22:33:11
とりあえずはコンソールから estcmd で見られるよん。
とか、そういうの?

$ estcmd search -vh DB searchstring

みたいな。
06066032006/03/11(土) 23:18:10
>>603-604
なるほど、thxです。
0607名無しさん@お腹いっぱい。2006/03/16(木) 05:51:08
開発者のBLOGがbloglines.comだと変なんですが俺だけですか?
0608名無しさん@お腹いっぱい。2006/03/16(木) 08:54:16
なんかtagが解釈されずにでてくるね。
0609名無しさん@お腹いっぱい。2006/03/21(火) 13:08:16
これってローカルのファイルの全文検索するだけだったらhyperじゃないほうがいい?
0610名無しさん@お腹いっぱい。2006/03/21(火) 14:49:27
hyperの方が旧estより全然速いし精度も高いような気がしる
0611名無しさん@お腹いっぱい。2006/03/21(火) 18:22:48
howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。
0612名無しさん@お腹いっぱい。2006/03/21(火) 19:42:18
>>611
> howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。

毎晩寝る前にお祈りすると妖精さんが作ってくれるかもしれないよっ
0613名無しさん@お腹いっぱい。2006/03/22(水) 16:50:31
検索ベースメーラー キター
http://www7a.biglobe.ne.jp/~hat/xyzzy/kamail3/readme.html
0614名無しさん@お腹いっぱい。2006/03/25(土) 00:02:46
>>613
howmにも是非!!
0615名無しさん@お腹いっぱい。2006/03/26(日) 01:51:34
DesktopHEがバージョンアップしてますね。
仕事PCに入れてみましたが、シンプルで使いやすいです。
0616名無しさん@お腹いっぱい。2006/03/26(日) 10:16:18
>>614
howmってそもそも検索べースじゃないの?
まずはどうしたいのかはっきりさせるべし。
0617名無しさん@お腹いっぱい。2006/03/26(日) 10:23:18
ところでmhcをHypEstで検索できるようにしたいと思っているのですが
ぜんぜんうまくいかない。どうだめなのでも説明できません。
だれかつくってください。
0618名無しさん@お腹いっぱい。2006/03/26(日) 10:55:01
つくってくださらない場合には、いかんながらHypEstコミュニティには
プログラムを作る力がないとあちこちで言って回らざるを得ません。
そのことも御承知おきください。
0619名無しさん@お腹いっぱい。2006/03/26(日) 13:25:16
いま流行りのフリーライダーの出現です!!
0620名無しさん@お腹いっぱい。2006/03/26(日) 14:22:48
>>616
その検索をこのHyperEstraierで高速化できないかと。
今の手段はGNU grepか、lisp製のfake-grepのみなんです。
0621名無しさん@お腹いっぱい。2006/03/26(日) 14:30:15
適当にシェルスクリプトなりelispなり書いてestcmdを呼び出せばすぐできるだろ。
0622名無しさん@お腹いっぱい。2006/03/26(日) 14:57:27
>>619
フリーライダーとはまた別だろ。
0623名無しさん@お腹いっぱい。2006/03/26(日) 18:09:48
Windows上で漢字のフォルダ・ファイル名を扱えますか?
namazuだと表とかが使えなくて困ってたんですが、
これなら使えたりしますか?



0624名無しさん@お腹いっぱい。2006/03/26(日) 20:42:10
>>623
そんなもん漢字コードの問題でnamazuかどうかは
無関係
0625名無しさん@お腹いっぱい。2006/03/26(日) 22:13:49
そうか?
0626名無しさん@お腹いっぱい。2006/03/26(日) 23:11:16
パス中のディレクトリを区切る時に、単に0x5c(\)で区切ると、
0x5cを含んでいる「ソ」や「表」などがあるとうまく扱えない。
ということで、文字コードの問題でもあり、そういった既知の問題への対処を
怠っているアプリケーションの問題であるとも言える。

ちなみにhyper estraier(estcmd)では「-pc cp932」オプションをつければ
うまくいくみたい。
0627名無しさん@お腹いっぱい。2006/03/26(日) 23:16:04
半分は多バイト文字をサポートするプログラミング言語で実装してるかどうかの問題。
もう半分はプログラマの能力の問題。
06286232006/03/27(月) 01:07:14
使えそうなんですね。
ちょっとやってみます

>>624
namazuというかwin版perlの問題なんですけどね。
0629名無しさん@お腹いっぱい。2006/03/27(月) 20:09:13
mew と連携するようにした例、ネットさがしてる
んだが、無いねぇ。
0630名無しさん@お腹いっぱい。2006/03/27(月) 20:19:27
去年の夏頃にMLで全文検索を行なう方法につ
0631名無しさん@お腹いっぱい。2006/03/27(月) 20:31:28
>>630
どうした。タイーホされたのか?
0632名無しさん@お腹いっぱい。2006/03/29(水) 23:07:12
デモサイトのWikipedia検索便利杉age
たまに最新版の記事に更新してくれると嬉しいのだが
0633名無しさん@お腹いっぱい。2006/03/29(水) 23:35:23
Wikipediaのインクリメンタル検索希望
0634名無しさん@お腹いっぱい。2006/03/30(木) 14:41:48
キーワード抽出の仕方について。
bigramを使っていますが
howm用に自動キーワード抽出をしたいのです。
0635名無しさん@お腹いっぱい。2006/03/30(木) 21:18:15
HTML吐いてインデクシングしる
0636名無しさん@お腹いっぱい。2006/03/30(木) 21:22:19
>633
Wikipediaは一括DLできるんだからローカルでやったら
0637名無しさん@お腹いっぱい。2006/03/31(金) 01:05:09
HyperのP2P検索って、クラスタリングにも使えると思っていいのかな?
0638名無しさん@お腹いっぱい。2006/03/31(金) 01:10:05
Wikipediaに、ローカルの辞書検索ソフトと同様の高水準のフロントエンドをつける
ことを考えよう。
(考え中……)
0639名無しさん@お腹いっぱい。2006/03/31(金) 10:10:37
>>637
むしろそういう性能目的の分散処理が一般的な利用形態なんじゃね?
0640名無しさん@お腹いっぱい。2006/03/32(土) 12:33:21
>>633
こういうの?

Ajax による Wikipedia インクリメンタルサーチ:
http://tokuhirom.dnsalias.org/~tokuhirom/wpsearch/
0641名無しさん@お腹いっぱい。2006/03/32(土) 12:45:12
>>640
そう言うのでなく、まともに動いてもっと高速なの。
0642名無しさん@お腹いっぱい。2006/03/32(土) 23:24:00
>>641
そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
0643名無しさん@お腹いっぱい。2006/03/32(土) 23:28:21
>>641
もっと高速とは?
速度に特に問題はないと思うけど。
0644名無しさん@お腹いっぱい。2006/03/32(土) 23:42:25
>>642
> そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。

うん。だからそういうのも含めて、

- 自動即時更新
- インクリメンタル検索
- 全文検索
- 検索語一覧
- バージョン追跡機能

まで装備したWikipediaフロントエンド。

メタデータなどを配るP2Pな分配システムに、
ローカルにギガバイト級のキャッシュを使って
快適に。
0645名無しさん@お腹いっぱい。2006/04/02(日) 00:30:53
言いだしっぺの法則。
0646名無しさん@お腹いっぱい。2006/04/02(日) 00:43:12
>>644
インクリメンタル検索を切り捨てさえすれば、ローカルでなくても実現できるというか、
クラサバ型の方が実現性が高そうな要求項目だね。

わざわざ巨大なデータをP2Pで配布してまでインクリメンタル検索なんてしたくないかもー。
0647名無しさん@お腹いっぱい。2006/04/02(日) 16:23:28
>>645
>>644にそんなものを作るスキルがあるとは思えない。
うろ覚えの単語を組み合わせて文章を作ってるだけのような気がすうr。
0648名無しさん@お腹いっぱい。2006/04/02(日) 16:44:06
wikipediaのインクリメンタル検索つったって見出し語にだけ使え
ればいいんだから大した規模じゃない。いいとこ数十MBだろ。

>>640をもっとまともに実装すればAjaxでやったって快適だし、
ちょろっと自前で実装しても簡単(ついでにいうとこの場合プレフィ
クスの差分だけ保管するようなデータ構造にしとけばかなり節約で
きる)。
つーかIMEの辞書に[見出し語 => URL]を入れといたって済む。

そんなんのためにP2Pとか言いだすと訳わからんことになるぞ。

0649名無しさん@お腹いっぱい。2006/04/02(日) 17:45:10
>>648
> wikipediaのインクリメンタル検索つったって見出し語にだけ使え
> ればいいんだから

そうなの? どうしてそう思うの?
0650名無しさん@お腹いっぱい。2006/04/02(日) 18:07:16
>>649
じゃお前は何を対象にしたインクリメンタル検索しようとしてるんだ?
0651名無しさん@お腹いっぱい。2006/04/02(日) 21:20:45
(´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
0652名無しさん@お腹いっぱい。2006/04/02(日) 21:30:41
>>651
Googleサジェストみたいな感じにしたいってことでしょ。
それだけのためにわざわざフロントエンドが欲しいとは全く思わないけど。
0653名無しさん@お腹いっぱい。2006/04/02(日) 21:46:06
>>651
> (´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
見出しには本文がついているんだよ。
0654名無しさん@お腹いっぱい。2006/04/02(日) 21:47:23
>>652
思わないよね。見出しだけなら前方一致で十二分。
0655名無しさん@お腹いっぱい。2006/04/02(日) 21:48:27
>>654
そんなもの欲しがる奴はキチガイだよな。
0656名無しさん@お腹いっぱい。2006/04/02(日) 21:52:51
ttp://chasen.org/~taku/software/ajax/kwic/
こーゆーののwikipedia版が欲しいとかそういう話とばかり思ってた
0657名無しさん@お腹いっぱい。2006/04/02(日) 21:59:36
>>656
rdicみたいなのじゃないの?
0658名無しさん@お腹いっぱい。2006/04/03(月) 03:56:46
自鯖のドキュメントのインデックスを
estmasterで他ホストと共有可能なかたちで公開してる人っている?
LAN内ではなく、グローバルかつリンク自由なかたちで。
いたらどんな感じか教えて欲しいんだが
(リンクしてくる他ホストはいるか、回線やサーバー機への負担は体感でどんなかんじか、など)
P2Pでそこらじゅうのインデックスが共有されるようになれば、
つーのが当初の企てっぽいのに、そういうことしてるところが見当たらないんで
ためしにやってみようかと思うんだけど
0659名無しさん@お腹いっぱい。2006/04/03(月) 10:03:48
>>658
デモサイトで動いてるみたいよ
http://athlon64.fsij.org:1978/
0660名無しさん@お腹いっぱい。2006/04/05(水) 03:05:11
mod_estraierで風博士+estraierみたいなことしてたんだけど
estmasterやApacheを止めてestcmd optimizeとかすると
database problem起こす。
estmasterやApache起動したままやると何もする形跡もないままプロンプトが戻らなくなるし。
サーバー機のスペック不足か俺の設定違いか。同じ目に会ってる人おらん?
0661名無しさん@お腹いっぱい。2006/04/05(水) 10:47:12
estmasterを止める時にkillしてない? そうするとその時点でDBが壊れるような気がす。
あと、estmasterを起動したままoptimizeできないのは、estmasterがDBをロックしている
からだと思われ。
0662名無しさん@お腹いっぱい。2006/04/10(月) 11:12:51
1.2.1リリースage
それにしても、KamailV3は萌えるね
0663名無しさん@お腹いっぱい。2006/04/15(土) 15:50:49
ノードAPI使ったサーチャのサンプルが本家にあるけど
試してみるとオニのように遅いな。
estcallやプロトコル使うより遅い。
つまりノードAPIを使う場合はサーバで動いてる
estmasterのサーチャを呼ぶんでなくて
リモートのインデックスにこっちから検索をかけるだけってことなん?
0664名無しさん@お腹いっぱい。2006/04/22(土) 00:10:27
>>663
estmaster内蔵の検索UIは /node/hogehoge/search_ui
estcallを使った場合は /node/hogehoge/search に接続しているから、
たぶん処理が違っているんじゃないかな。

0665名無しさん@お腹いっぱい。2006/04/22(土) 01:01:29
HEがバージョンあがるたびに、qdbmもあがるので追いかけるのメンドイ。
一体化してくれないかな。
0666名無しさん@お腹いっぱい。2006/04/24(月) 04:39:56
estcmd wordsで文書頻度(DF)を外部データベースに作る場合、
この外部データベースって、estcmd extkeysしたあとは捨てて
いいのかな?
保存しておくと、なんかいいことある?
0667名無しさん@お腹いっぱい。2006/04/24(月) 13:11:46
次回にestkeysを実行する時に使える。
0668名無しさん@お腹いっぱい。2006/04/24(月) 15:24:49
>>667
文書が更新されたのにDFを更新しないのは
おかしくない?
0669名無しさん@お腹いっぱい。2006/04/24(月) 16:21:17
DFを算出する対象のコーパスはでかい方がいいから文書を更新したら
DFのデータベースも更新した方がいいと思うけど、それほど精度は変わらないっぽいね。
でも、そういった意味では、もっと大規模なコーパスでDFのデータベースを作っておいて
それを使い回した方がいい希ガス。
0670名無しさん@お腹いっぱい。2006/04/27(木) 01:07:37
いまWikipediaのアーカイブにestcmd extkeysかけてるんだが、
CPU使用率が30%どまり(DFは外部データベース)。
効率悪いな。
gathererの速度もLuceneのIndexWriterの半分以下。

巨大データを扱うときは、メモリ・IO・同期がキモになると
思うんだが、そういうのをCで書くこと自体が辛いんじゃ
ないか。
アセンブラやらPOSIXやらに依存しまれば、Javaと互角
まではいけるかもしれない。
でも、移植性のある方法で書いたら、どう考えてもJavaのほうが
速くなるはず。
0671名無しさん@お腹いっぱい。2006/04/27(木) 15:44:33
extkeysは-umつけないとあまり意味がないだろ。
0672名無しさん@お腹いっぱい。2006/04/27(木) 18:17:53
>>670
estのgatherの速度はluceneよりは遥かに速いと思うけど、
どういう設定してる?
0673名無しさん@お腹いっぱい。2006/04/27(木) 22:19:50
>>672
LuceneのIndexWriterはsetMaxBufferedDocs(1000)にsetMergeFactor(100)
Hyper EstraierのgathererはDatabaseをDatabase.DBCREAT | Database.DBHUGE

もしかしてset_cache_sizeすればDisk IO待ちが減って速くなるの?
gathererが多少速くなってもestcmd extkeysの遅さはどうしようもないわけだが。
0674名無しさん@お腹いっぱい。2006/04/27(木) 23:53:56
>>673
set_cache_sizeするとすごく速くなるよ。というよりしないと遅い。
extkeysは-umすると多少速くなる。
0675名無しさん@お腹いっぱい。2006/04/30(日) 00:25:37
>>674
set_cache_sizeってどう設定するんですか?
0676名無しさん@お腹いっぱい。2006/04/30(日) 02:16:59
キャッシュを256メガにしたいなら、
db.set_cache_size(1024*1024*256, -1, -1, -1);
0677名無しさん@お腹いっぱい。2006/05/01(月) 05:27:51
estcmd gather の場合は -cs オプションね。>set_cache_size

ところで -um だけど MeCab を --enable-utf8-only オプション付きでコンパイルして
デフォルトの辞書も UTF-8 で構築、かつ Hyper Estraier のソースの mymorph.c を
EUC-JP <-> UTF-8 の変換をしないように変更するとさらに速くなるよ。

--enable-utf8-only オプション付けないと和文が2バイトから3バイトになって
解析対象のデータが多くなる分だけ UTF-8 の辞書を使った方が形態素解析が遅くなるし、
付けたら付けたで UTF-8 の文字単位で解析するようになるから MeCab で
他の文字コードが使えなくなるんで、結局デフォルトのままが無難なわけですが。
0678名無しさん@お腹いっぱい。2006/05/06(土) 19:30:12
manのページを検索したいので以下のようにしました
PATH=$PATH:/usr/local/share/hyperestraier/filter ;export PATH find /usr/share/man -type f |
egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket
としたところ
Bad : modifier in $ (/).
と言ってます。
構文とかぜんぜんわからないバカ者なのですがどうすれば良いでしょうか
教えてくださいませ。
OS=FreeBSD-5.4R
hyperest-v1.1.6です
よろしくおねがいします
0679名無しさん@お腹いっぱい。2006/05/06(土) 23:57:55
「export PATH」の後ろで改行するか、そこに「;」を置く。
0680名無しさん@お腹いっぱい。2006/05/07(日) 11:21:06
>>679
同じでした。
なんだろう?フィルターの当て方に癖があるのかな
0681名無しさん@お腹いっぱい。2006/05/07(日) 11:51:12
FreeBSD ということでもしやと思うが tcsh を使ってんじゃないだろうな。

PATH=...; export ...
という表現の意味はわかってるか?

まずは環境変数にそのパスを加えてふつうに実行してみろ。問題を切り分けるのはそれから。
0682名無しさん@お腹いっぱい。2006/05/07(日) 12:55:17
>>681
>PATH=...; export ...
>という表現の意味はわかってるか?
ありがとうございます。
意味が理解できました。
06836782006/05/08(月) 02:12:21
#echo $PATH
〜:/usr/local/share/hyperestraier/filter
と表示されます。
find /usr/share/man -type f |
 egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
 estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket -
実行後は
estcmd:INFO:〜(XXX):redistered
ulimit: too many arguments
・・・
estcmd: INFO closing: name=casket dnum=1176 wnum=0 fsiz=7252037 crnum=0 csiz=0
dknum=0
フィルタを読み込めてないって事ですよね?どのようにすれば良いでしょうか?
パスの通し方がまずいのかな?
0684名無しさん@お腹いっぱい。2006/05/08(月) 03:20:28
ulimitはフィルタの中で呼ばれているから、フィルタ自体は呼ばれていると思う。
manかcolかtrのどれかがパスに含まれてないことない?
0685名無しさん@お腹いっぱい。2006/05/08(月) 16:01:35
# echo $path
/sbin /bin /use/sbin /usr/bin /usr/games /usr/local/sbin
/usr/local/bin /usr/X11R6 /usr/local/share/hyperstraier/filter
以上が内容です。

# find /usr/share/share/man | grep -e '.*/man[0-9]' |
estcmd gather -no ft -fx"T@estfxmantotxt" -fz -sd -cm casket -
こんなのをやってみました
ulimit: too many arguments
は出力されなかったのですが、
estcmd : INFO: closing: name=casket dnum=0 wnum=0 fsiz=6898748 crnum=0
csiz=0 dknum=0
こんな表示です
0686名無しさん@お腹いっぱい。2006/05/08(月) 16:32:27
man man
ってやって、manが使える?
which man
which col
which tr
ってやるとどうなる?
0687名無しさん@お腹いっぱい。2006/05/08(月) 17:16:12
>>686
>man man
NO manual entry for man

>which man
/usr/bin/man

>which col
/usr/bin/col

>which tr
/usr/bin/tr

以上が結果です。
パス指定で/usr/binをはずして findコマンドを/usr/bin/findにすればいいのかな?
■ このスレッドは過去ログ倉庫に格納されています