全文検索エンジン Hyper Estraier 2

**名無しさん＠お腹いっぱい。** · 2007/04/17(火) 19:56:12

http://hyperestraier.sourceforge.net/index.ja.html

**名無しさん＠お腹いっぱい。** · 2010/09/22(水) 22:13:39

最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。

**名無しさん＠お腹いっぱい。** · 2010/09/22(水) 22:16:16

>>262
データ量多くなるとまともに使えなくなるけどなｗ

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 01:38:18

>>264
mixiの全データ検索に使用されているからそれはないのでは？
なにか運用間違えているとか？

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 02:49:10

TCの全文検索ってQ-GRAMインデックスのことだろ？
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 19:36:40

作ってる本人も遅いって言ってた気がする。

**265** · 2010/09/23(木) 20:30:00

mixiでTCが使われているのは全文検索じゃなかったね。ゴメン

**名無しさん＠お腹いっぱい。** · 2010/10/07(木) 04:14:16

>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。

**名無しさん＠お腹いっぱい。** · 2010/10/09(土) 17:47:15

>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。

**名無しさん＠お腹いっぱい。** · 2010/10/11(月) 12:23:08

>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。

**名無しさん＠お腹いっぱい。** · 2010/10/27(水) 20:48:38

>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。

**名無しさん＠お腹いっぱい。** · 2010/10/30(土) 15:19:33

誰かこの問題をHyper Estraier でも起きないか検証してくれw
ttp://uinyan.com/windows7_critical_bug/

**名無しさん＠お腹いっぱい。** · 2010/11/16(火) 15:09:15

windowsですが、DesktopHEの他に、似たソフトってないですか？
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 08:37:50

ファイル名のみ、または、最初の数行だけをクロールすることは可能？
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 09:36:59

”インデックスの容量”を心配しているの？
だとしたら杞憂だと思うんだけど、もしかして組込み系？

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 13:07:41

>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 13:47:37

>>277
インデックスの容量　->　テキスト情報量に依存
クロール時間　　　　->　クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。

**名無しさん＠お腹いっぱい。** · 2011/02/10(木) 23:56:21

最近のMinGWでコンパイルに成功したかたいますか？

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake　checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか？
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください

**名無しさん＠お腹いっぱい。** · 2011/04/14(木) 21:08:55.94

大文字小文字を区別して検索できるようにして欲しい

**名無しさん＠お腹いっぱい。** · 2011/04/17(日) 12:28:30.18

インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?

**281** · 2011/04/17(日) 12:31:21.73

>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。

**名無しさん＠お腹いっぱい。** · 2011/05/07(土) 18:02:40.44

>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか？

自分は上記のような感じで

ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。

オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400

**名無しさん＠お腹いっぱい。** · 2011/05/11(水) 20:07:25.33

もう見てる人居ないんだろうか

**名無しさん＠お腹いっぱい。** · 2011/05/11(水) 20:21:05.25

見てるけど、開発が止まっちゃってて新しい話題がないよなー

**名無しさん＠お腹いっぱい。** · 2011/05/12(木) 05:31:56.98

一応チェックリストには入れてる

**名無しさん＠お腹いっぱい。** · 2011/05/13(金) 19:03:09.08

namazu とこれくらいかー？
使える全文検索は。

**名無しさん＠お腹いっぱい。** · 2011/07/13(水) 06:07:12.29

luceneで決まりだろ

**名無しさん＠お腹いっぱい。** · 2011/07/13(水) 16:35:33.19

クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか？
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。

query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり（それか不要な
結果をフィルタリングしたり）、出力のフォーマットを調整できればとかいう希望をもってます。

**名無しさん＠お腹いっぱい。** · 2011/07/19(火) 00:44:48.88

今はkyotoだっけtokyoだっけ？

**名無しさん＠お腹いっぱい。** · 2011/07/19(火) 12:55:07.65

作者がmixiからgoogleにいったよね

**名無しさん＠お腹いっぱい。** · 2011/07/19(火) 14:38:11.73

>>291
へえ、ついに検索の総本山へか

**名無しさん＠お腹いっぱい。** · 2011/08/13(土) 15:26:49.80

え？自分で会社作ってたんじゃなかったっけ？？

**名無しさん＠お腹いっぱい。** · 2011/08/15(月) 10:45:08.18

失敗したんだって

**名無しさん＠お腹いっぱい。** · 2011/08/28(日) 22:41:21.12

解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「－」（全角マイナス）が含ま
れている場合、検索結果のリンクの「－」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。

Windows用バイナリ
http://hyperestraier.sourceforge.net/win/

**名無しさん＠お腹いっぱい。** · 2011/09/18(日) 23:41:27.20

P2Pでクローラーを動かしてます。

特定のURLがｲﾝﾃﾞｯｸｽされるかを知るにはどうすればよろしいのでしょうか？

**296** · 2011/09/18(日) 23:42:18.24

お願いします

**192.774** · 2011/11/26(土) 01:02:16.43

検索革命のせいか検索デスクの逆リンクがまだ動かない。