トップページunix
298コメント107KB

全文検索エンジン Hyper Estraier 2

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。2007/04/17(火) 19:56:12

http://hyperestraier.sourceforge.net/index.ja.html

0002名無しさん@お腹いっぱい。2007/04/17(火) 19:57:06
前スレ
http://pc11.2ch.net/test/read.cgi/unix/1100221699/
0003名無しさん@お腹いっぱい。2007/04/17(火) 21:59:35
「はっ!はぁぁぁあんっ!ナ、ナマズは?ナマズは、こ、超えたの??」
0004名無しさん@お腹いっぱい。2007/04/17(火) 22:08:40
いいえ、タイにご執心の気違い次男がいる限り、なまずは不滅です。
もっとも最近は、もっとダイレクトにcockらしいですが。
0005名無しさん@お腹いっぱい。2007/04/18(水) 00:12:47
>>1
0006名無しさん@お腹いっぱい。2007/04/18(水) 22:59:59
こんなところにエロゲーのスレが!??
0007名無しさん@お腹いっぱい。2007/04/19(木) 08:50:05
>>6
「イサキ 大漁」で検索
0008名無しさん@お腹いっぱい。2007/04/19(木) 17:49:02
インストール方法から検索方法までの詳細

0009名無しさん@お腹いっぱい。2007/04/19(木) 18:58:11
つGoogle
0010名無しさん@お腹いっぱい。2007/04/22(日) 17:16:55
いちいちhttpdなんか動かしてられるか!
ってひとのため。
http://green.ribbon.to/~ikazuhiro/lookup/ndest.html
0011名無しさん@お腹いっぱい。2007/04/22(日) 20:12:08
フロントエンド、統一してくれんかのぅ
00127742007/04/23(月) 01:14:13
前スレとの二重カキコご免なさい。
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?clip=8
こちらのサイトでtestを検索
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?phrase=text&perpage=10&clip=8&navi=0&attr=&order=
すると関連キーワードとして
Related terms: text, rowspan, style, align, center, color, background, key
というふうに出てきますが、これって配布されているCGI、estseek.cgiでも出すようにできますか??
いろいろ調べているんですが、方法が一向に分からず。
ご存知の方いらしたら改造のしかた教えて下さい。
0013名無しさん@お腹いっぱい。2007/04/24(火) 22:20:44
複数のインデックスを作っておいて、同時に検索できるのでしょうか?
estseek.confのindexname: 部分では複数の記述ができませんでした。
0014132007/04/24(火) 22:22:08
すみません。前スレに移動しました。
0015名無しさん@お腹いっぱい。2007/05/02(水) 19:49:28
relwords.qdb って何処で入手できるんでしょうか。
0016名無しさん@お腹いっぱい。2007/05/02(水) 20:50:02
ttp://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11373623770980940568&focus=1

0017名無しさん@お腹いっぱい。2007/05/02(水) 21:16:15
>>16
http://athlon64.fsij.org:8080/wikipedia/relwords.tsv.bz2

http://athlon64.fsij.org/wikipedia/relwords.tsv.bz2
のようですが、not found なのです。

wikipediaのデータを使っているようなので、GNU FDL に基づいて
作者に直接請求しなければならないのでしょうかね。
0018162007/05/02(水) 22:17:48
俺なら作者に「お願い」するけどな。

ところでGNU FDLに基づいて公開義務が生じる根拠って何かあるの?
0019名無しさん@お腹いっぱい。2007/05/03(木) 13:45:41
ここで改変されたデータへのアクセスを提供してる。
http://athlon64.fsij.org/~mikio/wikipedia/relwords.cgi
0020名無しさん@お腹いっぱい。2007/05/06(日) 11:58:48
これだろ
http://athlon64.fsij.org/~mikio/wikipedia/relwords.qdb
0021名無しさん@お腹いっぱい。2007/05/07(月) 11:24:34
>>20
多謝です。
0022名無しさん@お腹いっぱい。2007/06/12(火) 00:07:48
KaMailV3もここで良い?
0023名無しさん@お腹いっぱい。2007/06/12(火) 15:08:13
xyzzyのスレがあるべ。
作者さんはずっとあっちの人だ
0024名無しさん@お腹いっぱい。2007/06/20(水) 03:25:39
estcmd search -ord のあとに何をかけばいいのかわかんねー。
rubyの二つの bindingもどういう得失があるんだろう..
やっぱり purerubyだとちょっと遅いとか??
ちょっとソースに diveしてくる。
0025名無しさん@お腹いっぱい。2007/07/02(月) 22:06:30
mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに:ニュース - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20352009,00.htm

Hyper Estraier あげ
0026名無しさん@お腹いっぱい。2007/07/03(火) 09:54:12
mixy日記はコーパスとしておもしろそうだよねえ。
0027名無しさん@お腹いっぱい。2007/07/04(水) 20:56:32
namazu.el と同じようなフロントエンドおねがいしますー。

上にあったlookupじゃ使いにくいです。
リターン一発で編集したいです。

0028名無しさん@お腹いっぱい。2007/08/26(日) 14:16:34
Windowsバイナリ版で作成したインデクスと付属CGI(estseek.cgi及び関連ファイル)は
そのままレン鯖にうpしても動かないですかね?
試用段階なのだけど、なにか違うんだろうか。
0029282007/08/26(日) 15:33:46
ご、ごめん、いずれにしてもRubyからアクセス(検索)することになるので
そっちをテストしたらうまくいきました。
付属CGIが動かない理由はまだわからないけど、
自分でもいまいち整理できてないですし、
estseek.cgiは使わないので質問は取り下げます。
ごめりんこですm(_ _)m
0030名無しさん@お腹いっぱい。2007/09/04(火) 21:14:26
ちかごろ良さげなパッチがMLに
流れてるが、作者はマージせんのか。
中華、作者はメンテしてんのか?
0031名無しさん@お腹いっぱい。2007/09/05(水) 02:18:45
確か1.4.9と1.4.10の間も長かったな。
mixi移籍後社内業務で手一杯なのか開発速度が大幅に落ちた希ガス
0032名無しさん@お腹いっぱい。2007/09/05(水) 11:32:08
Tokyo Cabinet なんてのも作ってるしなあ。 QDBM ともども H.E. もこのまま放置されたりして。
http://tokyocabinet.sourceforge.net/

つーか代わりにメンテナに立候補する香具師はおらんかなあと思う今日このごろ。
0033名無しさん@お腹いっぱい。2007/10/28(日) 19:54:12
>>32
開発スピードが遅くなるのはいいんだけど、放置プレイだけが心配だなぁ。
Tokyo Cabinet で QDBM の不満点を解消したとかいってるし、QDBM 放置 → H.E. も放置な流れの気配が…
0034名無しさん@お腹いっぱい。2007/11/05(月) 14:51:27
100万レコードくらいのインデックスを作成したいのですが、
mysqlのエラーで止まります。何かいい方法ありますか?
0035名無しさん@お腹いっぱい。2007/11/06(火) 00:03:34
そもそもmysqlのエラーというのが発生する経緯がわからん
どういう使い方をしているのか、それを説明したまえ
0036342007/11/06(火) 19:34:03
>35

レスありがとうございます。
hyperestraierとacts_as_searchableというrailsのプラグインを使って、全文検索を行いたいと考えています。

acts_as_searchableに備わっているreindex!というメソッドを実行すると、インデックスが構築される仕様になっているのですが、
これを実行すると、だんだん処理が重くなり、最終的にはMysql::Error: Lost connection to MySQL server during queryというエラーが出てしまいます。

reindex!というメソッドはデフォルトでは対象になるレコードを一気にメモリにのせてしまうので、
そのあたりは負荷を減らすようなコードに修正して実行しています。
(このような感じです。ttp://d.hatena.ne.jp/yune_kotomi/20070912/1189617411)

hyperestraierのメーリングリストで、mysqlのLost Connectionを改善する
mysql_retry_lost_connectionというrailsのプラグインを教えて頂いたのですが、
インストールしても効果がなく、どうも、接続が切れる前の段階でつまずいているような気がします。

対象レコード数は100万弱で、途中で止まってしまいましたが、
#docs => 22897、#words => 196666まではいけました。

なにかアドバイスいただければ幸いです。
よろしくお願いします。







0037名無しさん@お腹いっぱい。2007/11/07(水) 11:56:45
そのMySQLのqueryとやらは、その先の処理が何時間かかろうともいつまでも待ってくれるの?
単にタイムアウトしているだけのような気が...
0038名無しさん@お腹いっぱい。2007/11/08(木) 01:02:45
つーかMLとマルチ?やるなあおい
0039名無しさん@お腹いっぱい。2007/11/08(木) 08:42:09
作者こないね

0040名無しさん@お腹いっぱい。2007/11/08(木) 22:48:10
マルチっていうより、ML で有効なレスポンスがないからこっちにも、ってことだろう。
残念ながら俺は MySQL と組み合わせたことも Rails も使ったことがないからよくわからん。
つか普通 MySQL で全文検索するんだったら Senna じゃね?
0041名無しさん@お腹いっぱい。2007/11/11(日) 18:28:54
いや、だからさ、作者はメンテする意思あんのか、と。
0042名無しさん@お腹いっぱい。2007/11/12(月) 00:50:42
メンテナンスに関しては、開発者コミュニティが形成されていない
のがダメな点だな。

作者の手を煩わせてはいかんよ。
0043名無しさん@お腹いっぱい。2007/11/12(月) 08:59:50
いやでもパッチ投げても直接マージされるわけじゃなく、本人がリライトして
著作権保持者を維持してるので、開発コミュニティの形成はforkでもしないと
無理だよ。
0044名無しさん@お腹いっぱい。2007/11/12(月) 10:29:24
作者がmixiじゃなくgoogleに就職していれば…
0045名無しさん@お腹いっぱい。2007/11/12(月) 10:59:56
googleに行ったフーリソフトウェア者も沈黙しちゃってる件(泣)

0046名無しさん@お腹いっぱい。2007/11/12(月) 19:53:49
マイクロソフトはソース見たらフリーウェアに参加で着なくなるけどほかのも?
0047名無しさん@お腹いっぱい。2007/11/21(水) 14:39:17
estseek.cgiで属性検索しても結果に出てこないのはなんで?
[UVSET]してるけどなー
0048名無しさん@お腹いっぱい。2007/11/21(水) 14:44:41
あとgather -aa @uri STRで属性インデックスつけてるけど やっぱ遅いですね
属性検索で速く検索する方法ありますか
0049名無しさん@お腹いっぱい。2007/11/21(水) 18:22:16
>>48
それ属性インデクス追加のオプションだっけ?
おれは
estcmd create -attr @uri str idx
とかやって属性インデクス付けたよ.

1000万件位のレコード数だったけど,URI検索は体感できるほど
速くなった.
0050名無しさん@お腹いっぱい。2007/11/29(木) 10:43:00
>>39-45
で、いざ新バージョンが出たら沈黙ってなんだよ。
0051名無しさん@お腹いっぱい。2007/11/29(木) 13:26:34
http://hyperestraier.sourceforge.net/index.ja.html
> 最新のソースパッケージ(バージョン1.4.12)

あれ、いつの間に。
ML 入ってるけどリリース情報なかったぞ。
何にせよ復活age.

ただ、ChangeLog 見る限り、

2007-11-18 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c: code clean-up.
- Bugs related to type casting of perl binding were fixed.
- Release: 1.4.12

2006-11-11 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c (est_resmap_add): "method" argument was added.
* estraier.c (est_inode): a bug related to overflow was fixed.
* estraier.c (est_narrow_score): a bug related to attribute distinction was fixed.
* estraier.c (est_search_union): search accuracy with trailing uni-gram was improved.
* estmaster.c (searchlocal): a bug related to scanning with regular expressions was fixed.
* estscout.c (realmain): "union", "score", and "idsuffix" attributes were added.
* estsupt.c (realmain): "score" attribute was added.
* estsupt.c (procsearch): accuracy of hint was improved.
* estsupt.c (realmain): "logmsg" parameter was added.
* estscout.c (realmain): "distinct" parameter was added.
* estscout.c (showresult): cache clear at random was added.
- Release: 1.4.11

ここのところ精力的に ML に投げられてたパッチはマージされてなさげ?
0052名無しさん@お腹いっぱい。2007/12/05(水) 19:46:42
pthreadsライブラリのないシステムで動かしたいんですが
なんとかならんですかね。
0053名無しさん@お腹いっぱい。2007/12/06(木) 19:59:56
Chimera Search(キメラ・サーチ)
http://www.osstech.co.jp/product/chimera

> 構築コンポーネントに以下のOSS(オープンソースソフトウェア)を利用
> しているため、安価に導入できるのに高性能・高機能を発揮します。
> * プログラム言語: Rubyおよび Ruby On Rails
> * 全文検索システム : Hyper Estraier
0054名無しさん@お腹いっぱい。2007/12/22(土) 14:50:01
百度でやってるように
會→会
懷→懐
みたいに異体・旧字体・繁体・簡体をまとめてくれるといいのに。

estraier.c のなかの canonize なんとか関数に誰かちょっちょっと書き加えてくれ。
0055名無しさん@お腹いっぱい。2007/12/22(土) 15:24:27
>>53
こういう製品って虚しいよね。
だって、導入60万、年12万だったらGoogle MINIの方が
安いし、ハードウェア込みの提供だからメンテフリーだし。
実際,うちの会社はWWW用はGoogleMINI にした。
部内サーバは自分でHyper Estraierをいれた。
0056名無しさん@お腹いっぱい。2007/12/22(土) 17:12:45
>>55
それはそうなんだが、Google MINIってちっとも社内のニーズに合わせてくれなくて不満がでるんだよな。
ページの計算もなんか適当に丸められちゃうし。
0057名無しさん@お腹いっぱい。2007/12/24(月) 16:00:59
コレ使って、某サイトの1万件の記事の全文検索作ったが早いし良いね!!
acts_as_searchableの未完成具合に泣いたけどww

Rails系のエンジニアに聞くと皆使ってるし、
結構いろんなサービスでも使ってるみたい。
0058名無しさん@お腹いっぱい。2007/12/27(木) 04:43:21
最新版のWindows版のバイナリパッケージを配布して欲しい...
0059名無しさん@お腹いっぱい。2007/12/27(木) 21:52:28
ありゃ、SennaはともかくHEにもないんだ…
0060名無しさん@お腹いっぱい。2008/01/06(日) 02:53:55

(  ̄0 ̄)Ψ 誰かぁぁ PHP-nativ binding を作ってぇ〜
0061名無しさん@お腹いっぱい。2008/01/29(火) 14:23:57
クローラー+ノードサーバーを使用した検索をシステムを動かし
http://*****:1978/node/***/search_ui の形式で検索には成功しました。

次ステップで
estraierpure.rb を PHP に移植したという 「EstraierPure for PHP 4.3」を使用し、ClassNodeを利用しましたが、検索結果に同じサイトばかり表示されてしまいます。

1:Pure版には 類似隠匿機能はないのでしょうか。
  Ruby、Javaにもないようですし..

2:Binding版(Perl等)には、類似隠匿機能(set_eclipse)があるのですが、classNode がありません。
  Binding版で、P2P(ノード)利用した検索をシステムって可能なのでしょうか。
  CPAN(Search-Estraier)を観ましたが、classNodeがあったのですが、set_eclipseがありませんでした
3:そもそもBinding版とPure版の違いってなんでしょうか。(汗


全く、的外れな質問でしたらお許しください
やりたいのは、「P2P+クローラーでの検索サーバーの構築」です。
0062名無しさん@お腹いっぱい。2008/01/29(火) 18:32:53
ノードAPIの場合、est_noderes_eclipse関数。 
Pureには、実装されてないようです。


>そりゃ俺がやるから使う側は楽なんだけどさ、面倒くせーことこの上ない。
 ttp://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11306060711414945086
0063名無しさん@お腹いっぱい。2008/01/30(水) 00:08:19
5年ぶりになまずを再インストールしたらすごくまともになってた。これでいいじゃん。
0064名無しさん@お腹いっぱい。2008/01/30(水) 01:19:12
5年ぶりかよっ。
0065名無しさん@お腹いっぱい。2008/01/30(水) 02:18:18
鰤と鯰
0066612008/01/30(水) 14:55:51
面倒くせーですか.... Cでやってみましょうか..15年ブリ(鬱
0067名無しさん@お腹いっぱい。2008/01/30(水) 20:11:19
いくらなんでも鯰でいいはないだろ…
検索漏れ大杉でとても使う木になれん
0068名無しさん@お腹いっぱい。2008/01/31(木) 10:15:31
>検索漏れ大杉

 ヒント Mecab
0069名無しさん@お腹いっぱい。2008/01/31(木) 14:10:21
namazu+kakasi じゃなくて 鯰+和布蕪ってこと?
0070名無しさん@お腹いっぱい。2008/02/01(金) 10:36:19
>>66
Cで組むならQDBMの使いこなしが必要。
関数になれましょう
0071名無しさん@お腹いっぱい。2008/02/07(木) 15:54:15
景気よくageます.
Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか.
どなたかビルドしておられたらありがたいですが
0072名無しさん@お腹いっぱい。2008/02/09(土) 17:52:06
1.4.10 で困ることあるのか?

0073名無しさん@お腹いっぱい。2008/02/10(日) 09:18:20

辞書データ変換ツール一般についてと
(製品版のデータを全部持った)体験版のデータ変換についての話が
入り乱れてないか?
0074名無しさん@お腹いっぱい。2008/02/10(日) 09:19:50
すまん、誤爆した。
0075名無しさん@お腹いっぱい。2008/02/20(水) 02:24:28
これ、データーベース(QDBM)が壊れまくり。
DBが開いた状態で、プロセスが落ちると100%ぶっ飛ぶ
速いらしいが、こんなん怖くて使えないわ。
どうでもいいような、無くなってもいいデータしか扱えないわ。

さてと、1000万件のデータ、ゼロから収集だわ(鬱

なんとかならんでしょうかね
0076名無しさん@お腹いっぱい。2008/02/20(水) 02:34:44
なんとかしてみてよ。
0077名無しさん@お腹いっぱい。2008/02/20(水) 08:56:25
俺もbsfilterでqdbm使ってたらすぐ壊れたんでsdbmに変えた・゚・(つД`)・゚・
0078名無しさん@お腹いっぱい。2008/02/20(水) 10:37:59
http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11226165321819719571
0079名無しさん@お腹いっぱい。2008/02/20(水) 15:07:56
>>77
よかったな! sdbmの方が圧倒的に速いぞ。
0080名無しさん@お腹いっぱい。2008/02/21(木) 13:32:05
まぁ〜、トラック と
ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。

高速道路で同じ荷物を運んで どっちの運ちゃんが逝くかは明白。

シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。
RAMにカキコされたキャッシュ程度のモンよ

0081名無しさん@お腹いっぱい。2008/02/21(木) 18:56:31
>>80
お前喩えのセンスあるな
0082名無しさん@お腹いっぱい。2008/02/23(土) 11:56:39
HE+Tokyo Cabinet に変わるまで待てよ
0083名無しさん@お腹いっぱい。2008/02/23(土) 13:45:46
TC ってさらに速さを追求したライブラリなんじゃネーの?
安全性上がるのか?
0084832008/02/23(土) 13:52:41
ああ、
http://alpha.mixi.co.jp/blog/?p=90
> 耐障害性の向上 : データベースファイルが壊れにくい
って書いてあるな。

速度だけでなく安全性も向上するのか。
0085名無しさん@お腹いっぱい。2008/02/23(土) 14:11:07
http://alpha.mixi.co.jp/blog/?p=98
> QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。

突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。
0086名無しさん@お腹いっぱい。2008/02/23(土) 16:37:48
サバイバビリティの概念がないソフトウェア設計者がいるのか。
能力的に対処できないということはなさそうだから、
実世界の面倒くさいことから逃避するための言い訳か。

> アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。

そんな事がしょっちゅうあるようなOSは使わないのが普通。

開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。
0087名無しさん@お腹いっぱい。2008/02/23(土) 16:53:57
>>86
おまえは Windows を使ったことがないのか?
0088名無しさん@お腹いっぱい。2008/02/24(日) 05:10:28
●ノードマスタの異常終了(再起動シナイ)
 サーバールートdirの _pid と _stop の削除 

●DBの復旧
 estcmd repair index_path
 
0089名無しさん@お腹いっぱい。2008/02/24(日) 14:10:33
共有鯖で、クローラーを動かしてますが、突然、
「out of memory」で止まってしまいました。( p_q)エ-ン

クローラールートディレクトリ(rootdir)内が飛んだようで
以後、
estwaver crawl rootdir  で 「could not open」となり起動できません。

メモリが少ないのはわかるのですが、先日までは正常に動作してました。
rootdirの復活方法など対処方法を教えてください (o*。_。)oペコッ
0090名無しさん@お腹いっぱい。2008/02/24(日) 15:35:47
つ…釣り?
0091名無しさん@お腹いっぱい。2008/02/24(日) 15:57:55
あるいは「一般人」かも
0092名無しさん@お腹いっぱい。2008/02/24(日) 19:53:33
>>85,86
耐障害性の確保は上位層でやれってことだろ。
オーバーヘッドを減らすためには妥当な技術選択だ。
あんたらが考えてるくらいのことはとっくに考えてるはずだよ。

その例としてTokyo Tyrantでちゃんと耐障害性を確保しているしな。
http://alpha.mixi.co.jp/blog/?p=147

これベースでHEを作ってくれないかなぁ。
0093名無しさん@お腹いっぱい。2008/02/24(日) 21:47:33
むしろ今後HEが放棄されそうで心配…。
0094名無しさん@お腹いっぱい。2008/02/24(日) 22:47:01
mixi.jp 内で動いているエンジンを表に出して欲しい。
0095名無しさん@お腹いっぱい。2008/02/25(月) 06:44:00
>>92
中見てないけどtokyoestraierってのがそうじゃないの?

0096名無しさん@お腹いっぱい。2008/02/26(火) 12:43:58
>>92
選択肢の一つではあるが、技術的に妥当な選択だとは思わないな。
用途が制約される(上位層やユーザがその要求を履行するのは難しい)という点で。
0097名無しさん@お腹いっぱい。2008/02/26(火) 22:43:32
トレードオフのある技術選択において何が妥当かはユースケース次第だろう。
consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。
0098名無しさん@お腹いっぱい。2008/02/27(水) 17:41:29
HEはそのまま。

後継は、tokyoestraier(TE)でしょう。
http://hyperestraier.sourceforge.net/past/?M=A
0099名無しさん@お腹いっぱい。2008/02/28(木) 13:12:04
DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。
0100名無しさん@お腹いっぱい。2008/03/21(金) 04:12:02
ココもMLも過疎ってるし...
■ このスレッドは過去ログ倉庫に格納されています