全文検索エンジン Hyper Estraier 2
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
2007/04/17(火) 19:56:12http://hyperestraier.sourceforge.net/index.ja.html
0248名無しさん@お腹いっぱい。
2010/05/21(金) 21:40:15若干過疎気味なので、こちらで質問させてください。
windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか?
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。
要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。
0249名無しさん@お腹いっぱい。
2010/05/24(月) 12:53:33ttp://hyperestraier.sourceforge.net/cguide-ja.html
うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。
0250名無しさん@お腹いっぱい。
2010/05/26(水) 02:11:25248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。
0251名無しさん@お腹いっぱい。
2010/06/01(火) 20:00:23解決方法ありますか。
0252名無しさん@お腹いっぱい。
2010/06/02(水) 19:06:560253名無しさん@お腹いっぱい。
2010/06/03(木) 13:20:31書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
0254名無しさん@お腹いっぱい。
2010/06/03(木) 16:48:100255名無しさん@お腹いっぱい。
2010/06/04(金) 20:57:30【岩波書店】 Google問題の核心
―― 開かれた検索システムのために ――
牧野 二郎
http://www.iwanami.co.jp/shinkan/index.html
世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ.
Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決
するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提
案する.
0256名無しさん@お腹いっぱい。
2010/06/05(土) 22:13:46結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
0257名無しさん@お腹いっぱい。
2010/06/14(月) 16:45:12Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。
0258名無しさん@お腹いっぱい。
2010/06/28(月) 10:43:43他に
0259名無しさん@お腹いっぱい。
2010/08/05(木) 03:31:58低スキルなので、私はだめだけど..
0260名無しさん@お腹いっぱい。
2010/08/05(木) 04:16:09なんか問題あるっけ?
TCに移行すればいいじゃない。
0261名無しさん@お腹いっぱい。
2010/08/05(木) 17:19:590262名無しさん@お腹いっぱい。
2010/08/15(日) 12:35:460263名無しさん@お腹いっぱい。
2010/09/22(水) 22:13:39簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。
0264名無しさん@お腹いっぱい。
2010/09/22(水) 22:16:16データ量多くなるとまともに使えなくなるけどなw
0265名無しさん@お腹いっぱい。
2010/09/23(木) 01:38:18mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?
0266名無しさん@お腹いっぱい。
2010/09/23(木) 02:49:10データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
0267名無しさん@お腹いっぱい。
2010/09/23(木) 19:36:400268265
2010/09/23(木) 20:30:000269名無しさん@お腹いっぱい。
2010/10/07(木) 04:14:16N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
0270名無しさん@お腹いっぱい。
2010/10/09(土) 17:47:15レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
0271名無しさん@お腹いっぱい。
2010/10/11(月) 12:23:08wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。
269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)
という内部動作なんだろうなと、前に思った。
0272名無しさん@お腹いっぱい。
2010/10/27(水) 20:48:38遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
0273名無しさん@お腹いっぱい。
2010/10/30(土) 15:19:33ttp://uinyan.com/windows7_critical_bug/
0274名無しさん@お腹いっぱい。
2010/11/16(火) 15:09:15もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・
0275名無しさん@お腹いっぱい。
2011/02/10(木) 08:37:50全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
0276名無しさん@お腹いっぱい。
2011/02/10(木) 09:36:59だとしたら杞憂だと思うんだけど、もしかして組込み系?
0277名無しさん@お腹いっぱい。
2011/02/10(木) 13:07:41いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
0278名無しさん@お腹いっぱい。
2011/02/10(木) 13:47:37インデックスの容量 -> テキスト情報量に依存
クロール時間 -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。
0279名無しさん@お腹いっぱい。
2011/02/10(木) 23:56:21ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください
0280名無しさん@お腹いっぱい。
2011/04/14(木) 21:08:55.940281名無しさん@お腹いっぱい。
2011/04/17(日) 12:28:30.18回避する方法ありますか?
0282281
2011/04/17(日) 12:31:21.73解決策見つからず。
0283名無しさん@お腹いっぱい。
2011/05/07(土) 18:02:40.44この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
0284名無しさん@お腹いっぱい。
2011/05/11(水) 20:07:25.330285名無しさん@お腹いっぱい。
2011/05/11(水) 20:21:05.250286名無しさん@お腹いっぱい。
2011/05/12(木) 05:31:56.980287名無しさん@お腹いっぱい。
2011/05/13(金) 19:03:09.08使える全文検索は。
0288名無しさん@お腹いっぱい。
2011/07/13(水) 06:07:12.290289名無しさん@お腹いっぱい。
2011/07/13(水) 16:35:33.19全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。
query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
0290名無しさん@お腹いっぱい。
2011/07/19(火) 00:44:48.880291名無しさん@お腹いっぱい。
2011/07/19(火) 12:55:07.650292名無しさん@お腹いっぱい。
2011/07/19(火) 14:38:11.73へえ、ついに検索の総本山へか
0293名無しさん@お腹いっぱい。
2011/08/13(土) 15:26:49.800294名無しさん@お腹いっぱい。
2011/08/15(月) 10:45:08.180295名無しさん@お腹いっぱい。
2011/08/28(日) 22:41:21.12Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。
unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。
Windows用バイナリ
http://hyperestraier.sourceforge.net/win/
0296名無しさん@お腹いっぱい。
2011/09/18(日) 23:41:27.20特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
0297296
2011/09/18(日) 23:42:18.240298192.774
2011/11/26(土) 01:02:16.43■ このスレッドは過去ログ倉庫に格納されています