全文検索エンジンEstraier
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
NGNGスレッドです。
http://estraier.sourceforge.net/
0588名無しさん@お腹いっぱい。
2005/12/22(木) 16:39:31infoseekやgooはキチガイみたいに検索結果と関係ない情報がひっついてる。
0589名無しさん@お腹いっぱい。
2005/12/26(月) 11:38:030590名無しさん@お腹いっぱい。
2005/12/26(月) 22:34:58そうねYahooはよくなってると思う
googleは一時よりかなり劣化してる感が否めない
0591名無しさん@お腹いっぱい。
2005/12/28(水) 00:41:19死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ死んだ
先日会社の上司の娘が病気で死んだ、心底どうでもいい事だったが心優しい俺は葬式に出てやった。
すると会社じゃ威張り散らしてる奴が娘(だった物)にすがりついてビービー泣いてるんですよwwwwwww
必死に笑いを堪えつつ仕込んでいたネタを使う。
俺「これ・・娘さんがディズニーのキャラクター好きだって言ってましたよね。」
ミッキーのぬいぐるみセットをスッと差し出す。
俺「もたせてあげてください・・きっと喜んでもらえると思うんです・・」
上「う、う・・・す、すまない・・・ありがとう・・・・」
プププギャギャーm9^ ^
そんなこんなでご冥福をわざわざお祈りしてやったわけだが、今度会社に来たこいつにどんな言葉をかけてやったらいいと思う?
なるべく俺の利益になるよう事を運びたいんだが
コイツリアル基地外だお!(;^ω^)
おまいらの力で懲らしめてほしいお!
嫌いな上司の娘が死んだ
http://news18.2ch.net/test/read.cgi/news7/1135513179/
0592名無しさん@お腹いっぱい。
2005/12/29(木) 03:25:580593名無しさん@お腹いっぱい。
2006/01/08(日) 06:26:040594名無しさん@お腹いっぱい。
2006/02/23(木) 17:03:090595名無しさん@お腹いっぱい。
2006/02/24(金) 02:10:46なにがなんだかわからない件
0596名無しさん@お腹いっぱい。
2006/02/24(金) 09:16:160597名無しさん@お腹いっぱい。
2006/02/25(土) 08:10:240598名無しさん@お腹いっぱい。
2006/02/25(土) 10:34:470599名無しさん@お腹いっぱい。
2006/02/25(土) 12:01:35ソース見るとわかるけどアレ結構お遊び仕組まれてるぞ
0600名無しさん@お腹いっぱい。
2006/02/25(土) 16:13:55「牌破衛須都隸亜」らしい。
0601名無しさん@お腹いっぱい。
2006/02/25(土) 21:33:490602名無しさん@お腹いっぱい。
2006/03/09(木) 18:14:10また開発速度上げてきたね。
0603名無しさん@お腹いっぱい。
2006/03/11(土) 20:29:480604名無しさん@お腹いっぱい。
2006/03/11(土) 22:03:301. ふつうにDBへアクセスするだけならサーバは要らない。
2. ふつうのP2P機能なら別途専用のサーバを立てて運用する。httpだが80番は使わない。
3. apache 用の mod_estraier も開発されているので、それを使えばやっぱり apache でOK。
0605名無しさん@お腹いっぱい。
2006/03/11(土) 22:33:11とか、そういうの?
$ estcmd search -vh DB searchstring
みたいな。
0607名無しさん@お腹いっぱい。
2006/03/16(木) 05:51:080608名無しさん@お腹いっぱい。
2006/03/16(木) 08:54:160609名無しさん@お腹いっぱい。
2006/03/21(火) 13:08:160610名無しさん@お腹いっぱい。
2006/03/21(火) 14:49:270611名無しさん@お腹いっぱい。
2006/03/21(火) 18:22:480612名無しさん@お腹いっぱい。
2006/03/21(火) 19:42:18> howmのメモ検索で、hyperestraier使えるようなplug-inが出来るといいなぁ。
毎晩寝る前にお祈りすると妖精さんが作ってくれるかもしれないよっ
0613名無しさん@お腹いっぱい。
2006/03/22(水) 16:50:31http://www7a.biglobe.ne.jp/~hat/xyzzy/kamail3/readme.html
0614名無しさん@お腹いっぱい。
2006/03/25(土) 00:02:46howmにも是非!!
0615名無しさん@お腹いっぱい。
2006/03/26(日) 01:51:34仕事PCに入れてみましたが、シンプルで使いやすいです。
0616名無しさん@お腹いっぱい。
2006/03/26(日) 10:16:18howmってそもそも検索べースじゃないの?
まずはどうしたいのかはっきりさせるべし。
0617名無しさん@お腹いっぱい。
2006/03/26(日) 10:23:18ぜんぜんうまくいかない。どうだめなのでも説明できません。
だれかつくってください。
0618名無しさん@お腹いっぱい。
2006/03/26(日) 10:55:01プログラムを作る力がないとあちこちで言って回らざるを得ません。
そのことも御承知おきください。
0619名無しさん@お腹いっぱい。
2006/03/26(日) 13:25:160620名無しさん@お腹いっぱい。
2006/03/26(日) 14:22:48その検索をこのHyperEstraierで高速化できないかと。
今の手段はGNU grepか、lisp製のfake-grepのみなんです。
0621名無しさん@お腹いっぱい。
2006/03/26(日) 14:30:150622名無しさん@お腹いっぱい。
2006/03/26(日) 14:57:27フリーライダーとはまた別だろ。
0623名無しさん@お腹いっぱい。
2006/03/26(日) 18:09:48namazuだと表とかが使えなくて困ってたんですが、
これなら使えたりしますか?
0624名無しさん@お腹いっぱい。
2006/03/26(日) 20:42:10そんなもん漢字コードの問題でnamazuかどうかは
無関係
0625名無しさん@お腹いっぱい。
2006/03/26(日) 22:13:490626名無しさん@お腹いっぱい。
2006/03/26(日) 23:11:160x5cを含んでいる「ソ」や「表」などがあるとうまく扱えない。
ということで、文字コードの問題でもあり、そういった既知の問題への対処を
怠っているアプリケーションの問題であるとも言える。
ちなみにhyper estraier(estcmd)では「-pc cp932」オプションをつければ
うまくいくみたい。
0627名無しさん@お腹いっぱい。
2006/03/26(日) 23:16:04もう半分はプログラマの能力の問題。
0629名無しさん@お腹いっぱい。
2006/03/27(月) 20:09:13んだが、無いねぇ。
0630名無しさん@お腹いっぱい。
2006/03/27(月) 20:19:270631名無しさん@お腹いっぱい。
2006/03/27(月) 20:31:28どうした。タイーホされたのか?
0632名無しさん@お腹いっぱい。
2006/03/29(水) 23:07:12たまに最新版の記事に更新してくれると嬉しいのだが
0633名無しさん@お腹いっぱい。
2006/03/29(水) 23:35:230634名無しさん@お腹いっぱい。
2006/03/30(木) 14:41:48bigramを使っていますが
howm用に自動キーワード抽出をしたいのです。
0635名無しさん@お腹いっぱい。
2006/03/30(木) 21:18:150636名無しさん@お腹いっぱい。
2006/03/30(木) 21:22:19Wikipediaは一括DLできるんだからローカルでやったら
0637名無しさん@お腹いっぱい。
2006/03/31(金) 01:05:090638名無しさん@お腹いっぱい。
2006/03/31(金) 01:10:05ことを考えよう。
(考え中……)
0639名無しさん@お腹いっぱい。
2006/03/31(金) 10:10:37むしろそういう性能目的の分散処理が一般的な利用形態なんじゃね?
0640名無しさん@お腹いっぱい。
2006/03/32(土) 12:33:21こういうの?
Ajax による Wikipedia インクリメンタルサーチ:
http://tokuhirom.dnsalias.org/~tokuhirom/wpsearch/
0641名無しさん@お腹いっぱい。
2006/03/32(土) 12:45:12そう言うのでなく、まともに動いてもっと高速なの。
0642名無しさん@お腹いっぱい。
2006/03/32(土) 23:24:00そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
0643名無しさん@お腹いっぱい。
2006/03/32(土) 23:28:21もっと高速とは?
速度に特に問題はないと思うけど。
0644名無しさん@お腹いっぱい。
2006/03/32(土) 23:42:25> そもそもローカルで動かさないと、実用的な速度のインクリメンタル検索は難しいだろ。
うん。だからそういうのも含めて、
- 自動即時更新
- インクリメンタル検索
- 全文検索
- 検索語一覧
- バージョン追跡機能
まで装備したWikipediaフロントエンド。
メタデータなどを配るP2Pな分配システムに、
ローカルにギガバイト級のキャッシュを使って
快適に。
0645名無しさん@お腹いっぱい。
2006/04/02(日) 00:30:530646名無しさん@お腹いっぱい。
2006/04/02(日) 00:43:12インクリメンタル検索を切り捨てさえすれば、ローカルでなくても実現できるというか、
クラサバ型の方が実現性が高そうな要求項目だね。
わざわざ巨大なデータをP2Pで配布してまでインクリメンタル検索なんてしたくないかもー。
0647名無しさん@お腹いっぱい。
2006/04/02(日) 16:23:28>>644にそんなものを作るスキルがあるとは思えない。
うろ覚えの単語を組み合わせて文章を作ってるだけのような気がすうr。
0648名無しさん@お腹いっぱい。
2006/04/02(日) 16:44:06ればいいんだから大した規模じゃない。いいとこ数十MBだろ。
>>640をもっとまともに実装すればAjaxでやったって快適だし、
ちょろっと自前で実装しても簡単(ついでにいうとこの場合プレフィ
クスの差分だけ保管するようなデータ構造にしとけばかなり節約で
きる)。
つーかIMEの辞書に[見出し語 => URL]を入れといたって済む。
そんなんのためにP2Pとか言いだすと訳わからんことになるぞ。
0649名無しさん@お腹いっぱい。
2006/04/02(日) 17:45:10> wikipediaのインクリメンタル検索つったって見出し語にだけ使え
> ればいいんだから
そうなの? どうしてそう思うの?
0650名無しさん@お腹いっぱい。
2006/04/02(日) 18:07:16じゃお前は何を対象にしたインクリメンタル検索しようとしてるんだ?
0651名無しさん@お腹いっぱい。
2006/04/02(日) 21:20:450652名無しさん@お腹いっぱい。
2006/04/02(日) 21:30:41Googleサジェストみたいな感じにしたいってことでしょ。
それだけのためにわざわざフロントエンドが欲しいとは全く思わないけど。
0653名無しさん@お腹いっぱい。
2006/04/02(日) 21:46:06> (´-`).。oO(見出しをインクリメンタル検索して何が嬉しいんだろう。。。
見出しには本文がついているんだよ。
0654名無しさん@お腹いっぱい。
2006/04/02(日) 21:47:23思わないよね。見出しだけなら前方一致で十二分。
0655名無しさん@お腹いっぱい。
2006/04/02(日) 21:48:27そんなもの欲しがる奴はキチガイだよな。
0656名無しさん@お腹いっぱい。
2006/04/02(日) 21:52:51こーゆーののwikipedia版が欲しいとかそういう話とばかり思ってた
0657名無しさん@お腹いっぱい。
2006/04/02(日) 21:59:36rdicみたいなのじゃないの?
0658名無しさん@お腹いっぱい。
2006/04/03(月) 03:56:46estmasterで他ホストと共有可能なかたちで公開してる人っている?
LAN内ではなく、グローバルかつリンク自由なかたちで。
いたらどんな感じか教えて欲しいんだが
(リンクしてくる他ホストはいるか、回線やサーバー機への負担は体感でどんなかんじか、など)
P2Pでそこらじゅうのインデックスが共有されるようになれば、
つーのが当初の企てっぽいのに、そういうことしてるところが見当たらないんで
ためしにやってみようかと思うんだけど
0659名無しさん@お腹いっぱい。
2006/04/03(月) 10:03:48デモサイトで動いてるみたいよ
http://athlon64.fsij.org:1978/
0660名無しさん@お腹いっぱい。
2006/04/05(水) 03:05:11estmasterやApacheを止めてestcmd optimizeとかすると
database problem起こす。
estmasterやApache起動したままやると何もする形跡もないままプロンプトが戻らなくなるし。
サーバー機のスペック不足か俺の設定違いか。同じ目に会ってる人おらん?
0661名無しさん@お腹いっぱい。
2006/04/05(水) 10:47:12あと、estmasterを起動したままoptimizeできないのは、estmasterがDBをロックしている
からだと思われ。
0662名無しさん@お腹いっぱい。
2006/04/10(月) 11:12:51それにしても、KamailV3は萌えるね
0663名無しさん@お腹いっぱい。
2006/04/15(土) 15:50:49試してみるとオニのように遅いな。
estcallやプロトコル使うより遅い。
つまりノードAPIを使う場合はサーバで動いてる
estmasterのサーチャを呼ぶんでなくて
リモートのインデックスにこっちから検索をかけるだけってことなん?
0664名無しさん@お腹いっぱい。
2006/04/22(土) 00:10:27estmaster内蔵の検索UIは /node/hogehoge/search_ui
estcallを使った場合は /node/hogehoge/search に接続しているから、
たぶん処理が違っているんじゃないかな。
0665名無しさん@お腹いっぱい。
2006/04/22(土) 01:01:29一体化してくれないかな。
0666名無しさん@お腹いっぱい。
2006/04/24(月) 04:39:56この外部データベースって、estcmd extkeysしたあとは捨てて
いいのかな?
保存しておくと、なんかいいことある?
0667名無しさん@お腹いっぱい。
2006/04/24(月) 13:11:460668名無しさん@お腹いっぱい。
2006/04/24(月) 15:24:49文書が更新されたのにDFを更新しないのは
おかしくない?
0669名無しさん@お腹いっぱい。
2006/04/24(月) 16:21:17DFのデータベースも更新した方がいいと思うけど、それほど精度は変わらないっぽいね。
でも、そういった意味では、もっと大規模なコーパスでDFのデータベースを作っておいて
それを使い回した方がいい希ガス。
0670名無しさん@お腹いっぱい。
2006/04/27(木) 01:07:37CPU使用率が30%どまり(DFは外部データベース)。
効率悪いな。
gathererの速度もLuceneのIndexWriterの半分以下。
巨大データを扱うときは、メモリ・IO・同期がキモになると
思うんだが、そういうのをCで書くこと自体が辛いんじゃ
ないか。
アセンブラやらPOSIXやらに依存しまれば、Javaと互角
まではいけるかもしれない。
でも、移植性のある方法で書いたら、どう考えてもJavaのほうが
速くなるはず。
0671名無しさん@お腹いっぱい。
2006/04/27(木) 15:44:330672名無しさん@お腹いっぱい。
2006/04/27(木) 18:17:53estのgatherの速度はluceneよりは遥かに速いと思うけど、
どういう設定してる?
0673名無しさん@お腹いっぱい。
2006/04/27(木) 22:19:50LuceneのIndexWriterはsetMaxBufferedDocs(1000)にsetMergeFactor(100)
Hyper EstraierのgathererはDatabaseをDatabase.DBCREAT | Database.DBHUGE
もしかしてset_cache_sizeすればDisk IO待ちが減って速くなるの?
gathererが多少速くなってもestcmd extkeysの遅さはどうしようもないわけだが。
0674名無しさん@お腹いっぱい。
2006/04/27(木) 23:53:56set_cache_sizeするとすごく速くなるよ。というよりしないと遅い。
extkeysは-umすると多少速くなる。
0675名無しさん@お腹いっぱい。
2006/04/30(日) 00:25:37set_cache_sizeってどう設定するんですか?
0676名無しさん@お腹いっぱい。
2006/04/30(日) 02:16:59db.set_cache_size(1024*1024*256, -1, -1, -1);
0677名無しさん@お腹いっぱい。
2006/05/01(月) 05:27:51ところで -um だけど MeCab を --enable-utf8-only オプション付きでコンパイルして
デフォルトの辞書も UTF-8 で構築、かつ Hyper Estraier のソースの mymorph.c を
EUC-JP <-> UTF-8 の変換をしないように変更するとさらに速くなるよ。
--enable-utf8-only オプション付けないと和文が2バイトから3バイトになって
解析対象のデータが多くなる分だけ UTF-8 の辞書を使った方が形態素解析が遅くなるし、
付けたら付けたで UTF-8 の文字単位で解析するようになるから MeCab で
他の文字コードが使えなくなるんで、結局デフォルトのままが無難なわけですが。
0678名無しさん@お腹いっぱい。
2006/05/06(土) 19:30:12PATH=$PATH:/usr/local/share/hyperestraier/filter ;export PATH find /usr/share/man -type f |
egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket
としたところ
Bad : modifier in $ (/).
と言ってます。
構文とかぜんぜんわからないバカ者なのですがどうすれば良いでしょうか
教えてくださいませ。
OS=FreeBSD-5.4R
hyperest-v1.1.6です
よろしくおねがいします
0679名無しさん@お腹いっぱい。
2006/05/06(土) 23:57:550680名無しさん@お腹いっぱい。
2006/05/07(日) 11:21:06同じでした。
なんだろう?フィルターの当て方に癖があるのかな
0681名無しさん@お腹いっぱい。
2006/05/07(日) 11:51:12PATH=...; export ...
という表現の意味はわかってるか?
まずは環境変数にそのパスを加えてふつうに実行してみろ。問題を切り分けるのはそれから。
0682名無しさん@お腹いっぱい。
2006/05/07(日) 12:55:17>PATH=...; export ...
>という表現の意味はわかってるか?
ありがとうございます。
意味が理解できました。
0683678
2006/05/08(月) 02:12:21〜:/usr/local/share/hyperestraier/filter
と表示されます。
find /usr/share/man -type f |
egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket -
実行後は
estcmd:INFO:〜(XXX):redistered
ulimit: too many arguments
・・・
estcmd: INFO closing: name=casket dnum=1176 wnum=0 fsiz=7252037 crnum=0 csiz=0
dknum=0
フィルタを読み込めてないって事ですよね?どのようにすれば良いでしょうか?
パスの通し方がまずいのかな?
0684名無しさん@お腹いっぱい。
2006/05/08(月) 03:20:28manかcolかtrのどれかがパスに含まれてないことない?
0685名無しさん@お腹いっぱい。
2006/05/08(月) 16:01:35/sbin /bin /use/sbin /usr/bin /usr/games /usr/local/sbin
/usr/local/bin /usr/X11R6 /usr/local/share/hyperstraier/filter
以上が内容です。
# find /usr/share/share/man | grep -e '.*/man[0-9]' |
estcmd gather -no ft -fx"T@estfxmantotxt" -fz -sd -cm casket -
こんなのをやってみました
ulimit: too many arguments
は出力されなかったのですが、
estcmd : INFO: closing: name=casket dnum=0 wnum=0 fsiz=6898748 crnum=0
csiz=0 dknum=0
こんな表示です
0686名無しさん@お腹いっぱい。
2006/05/08(月) 16:32:27ってやって、manが使える?
which man
which col
which tr
ってやるとどうなる?
0687名無しさん@お腹いっぱい。
2006/05/08(月) 17:16:12>man man
NO manual entry for man
>which man
/usr/bin/man
>which col
/usr/bin/col
>which tr
/usr/bin/tr
以上が結果です。
パス指定で/usr/binをはずして findコマンドを/usr/bin/findにすればいいのかな?
■ このスレッドは過去ログ倉庫に格納されています