トップページunix
987コメント301KB

全文検索エンジンEstraier

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0011名無しさん@お腹いっぱい。NGNG
>>10
Namazuは単語の出現位置をインデックスに記録しないからね。
ランキングはよくわからん。ちなみにNamazuにはPageRankハックが
あったけど、特許申請されているという理由(その後特許になっている)
で採用は見送られている。
0012名無しさん@お腹いっぱい。NGNG
自分が使ってみた感じでは、精度はEstraierの方が上なような。
0013名無しさん@お腹いっぱい。NGNG
namazu スレの766です。Estraier試してみますた。namazuに
くらべて複合語検索にずいぶん強いすね、「拡散接合」とか
「絶縁限界」とか。indexingもだいぶ早いような希ガスます。
かなーり良さげなんで、しばらく使ってみることにします。
0014名無しさん@お腹いっぱい。NGNG
メタ検索機能って使ってる香具師いる?
0015名無しさん@お腹いっぱい。NGNG
>>12-13
ほほう、さすが評判になってるだけによさげっすね〜。
自分も乗り換えてみたいけど、gnus-namazu と Namazu の自作フィルタがある
からかなり気合いがいるなあ…(´・ω・`)
0016名無しさん@お腹いっぱい。NGNG
namazu用のフィルタってestに使えないのかな。
改造するとしたらどれくらい手間かかりますかねぇ。
0017名無しさん@お腹いっぱい。NGNG
インデックス作るのは相当遅い。
検索速度は同じぐらいかな。
まぁ単純には比較できないか。
namazuは自作フィルタで重み付けをやっているので
その部分を何とかできればなぁ。
みんな乗り換えたの?
0018名無しさん@お腹いっぱい。NGNG
そうか? インデクシングはestraierの方がずいぶん速い気がするんだが。
0019名無しさん@お腹いっぱい。NGNG
インデックスはEstraierはQDBMベースだからhashとB+Treeか。
一方、Namazuは二分木だっけ。
0020名無しさん@お腹いっぱい。NGNG
二分探索であって二分木ではないと思われる。
0021名無しさん@お腹いっぱい。NGNG
>>16
Namazuのフィルタ部分だけを使えるみたいだから
なんとかできるのでないかな。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-September/000111.html
0022名無しさん@お腹いっぱい。NGNG
>>21
サンクスコ。なんかいけそうな予感。
0023名無しさん@お腹いっぱい。NGNG
ってゆーか、初めて知った。デモを使ってみたらスゲーいいじゃん。
Namazuから乗り換えよっと。
0024名無しさん@お腹いっぱい。NGNG
Estraier て読み方わからん。これ何語よ。
あと sourforge の ML アーカイブもなんか
文字コードおかしくね?
0025名無しさん@お腹いっぱい。NGNG
超昂天使だろ
0026名無しさん@お腹いっぱい。NGNG
>>24
> あと sourforge の ML アーカイブもなんか
> 文字コードおかしくね?

それは周知の事実。わざわざMailmanの改悪版を作っておきながら
直す気もないので、SF.netで日本語のMLを立てるべからず。
0027名無しさん@お腹いっぱい。NGNG
>>24
> Estraier て読み方わからん。これ何語よ。

Q. : 「Estraier」はどう発音するのか。
A. : 「estraier」は昔のフランス語で「さまよう」もしくは「はぐれる」という意
味の言葉だそうだが、作者はそれをどう発音すべきか未だに知らない。
0028名無しさん@お腹いっぱい。NGNG
えとれあ、とかなんとかじゃねの。
これ見た初め、2バイトコードなんか全然知らない
フランス野郎がつくったソフトかと思たーぜぃ。
0029名無しさん@お腹いっぱい。NGNG
>>28
フランス野郎が作ったのはこっち。
http://www.gnu.org/software/mifluz/
0030名無し象は鼻がウナギだよもん!NGNG
えすとれーるでないのと言ってみるテスト。

e(離れて) + traire(引く) → estraire(v)     → extraire
                → estraier(adj) → etrange, etranger
0031名無しさん@お腹いっぱい。NGNG
% estindex register test

としてみると

:
estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0
estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667
estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667
estindex: INFO: test: registration completed successfully

となるのは、これはどこか変なんだよな?
0032名無しさん@お腹いっぱい。NGNG
はてなダイアリーには「えすとれいあー」と振り仮名があったな。
ちゃんと全文検索エンジンで。

漏れも時間できたらNamazuから乗り換えてみよう。
0033名無しさん@お腹いっぱい。NGNG
>>31
registration completed successfullyって言うてるやん。
0034名無しさん@お腹いっぱい。NGNG
>>31
wnum=0 ってなってるから、単語が抽出できてないんでないの?
ファイルが空か、パーミッションがないとか。
だったらsuccessfullyってのも変だが。
0035名無しさん@お腹いっぱい。NGNG
「エスレール」とかちゃう?
0036名無しさん@お腹いっぱい。NGNG
古仏語でsは脱落してもtは脱落しないのココロ
0037名無しさん@お腹いっぱい。NGNG
1.2.25リリースage
0038名無しさん@お腹いっぱい。NGNG
文書分類機能がなかなか面白いね。
俺も乗り換えてみるか。
0039名無しさん@お腹いっぱい。NGNG
古仏語の発音は、時代によって変わるから難しいな
今のフランス語と違って、ほぼローマ字読みだったはずだけど
「エ(ス)トライエル」ぐらいか(ラ行は巻き舌音)
0040名無しさん@お腹いっぱい。NGNG
"est*"でいいやん。
0041名無しさん@お腹いっぱい。NGNG
現代フランス語としての発音はどうなの?
0042名無しさん@お腹いっぱい。NGNG
仏語は母音衝突を嫌う。三重母音が存在したとは考えにくい。
語尾がerになった時には既にaiは単母音化していただろう。
0043名無しさん@お腹いっぱい。NGNG
>>41
aier は現代仏語としてはありえん綴りだが
無理に読めばエストレー(ル)かのお。
末尾のrを発音するかどうかはまちまちだろう。

が、仏人は当然学校で古仏語を習ってるので
よほどのdqnでない限りは古仏語読みを試みると思われ

32の英語読みが爽やかだ
0044名無しさん@お腹いっぱい。NGNG
口では「えすとなんとか」と呼んでいます。
0045名無しさん@お腹いっぱい。NGNG
現代仏語しかやったことないけど、エストレー(ル)は近いと思う。
0046名無しさん@お腹いっぱい。NGNG
めんどいからなまぜに改名しようぜ
0047名無しさん@お腹いっぱい。NGNG
そういやluceneの読み方も物議を醸してたな。
0048名無しさん@お腹いっぱい。NGNG
Namazu後継で「なまこ」
0049名無しさん@お腹いっぱい。NGNG
あー、estraierはvuidierと韻を踏むのか。
じゃあエストライエルかエストレイェルだな。
0050名無しさん@お腹いっぱい。NGNG
ここは検索対象としない(インデックス作成を除外)の指定
Namazuの EXCLUDE_PATHに相当するオプションってあるのでしょうか?

0051名無しさん@お腹いっぱい。NGNG
エストライアーとかエストレイルかな。
0052名無しさん@お腹いっぱい。NGNG
>>50 EXC_DIR オプションスイッチ、
今のところ無いように見える。
indexingさす dir を明示して
とりあえずしのげ、つうことでわ。
0053名無しさん@お腹いっぱい。NGNG
>>50 多分 -ipre オプションでできる。
005450NGNG
>>52,53
-ipreは、無視するファイル名を書くようですね?。このディレクトリー以下全部除外。ってのは無理?
やはり、一個一個ディレクトリー指定していくほか無いようですね。

いやほら 403で見れなくしてても、namazuもそうだけど、お構いなしに database作って
大漏洩になっちゃうから・・
0055名無しさん@お腹いっぱい。NGNG
希望の仕様をまとめてお願いしてみろよ。
0056名無しさん@お腹いっぱい。NGNG
>>54
prefixのpreだと思われる。だから、前方一致でヒットすれば無視されるはず。
0057名無しさん@お腹いっぱい。NGNG
まだインスコもしてないから判んないんだけど Namazu の --target-list み
たいに find でファイルリスト作っといてそれを食わせるとかできないの?
0058名無しさん@お腹いっぱい。NGNG
>>57 それはできる。
005957NGNG
>>58
thx。それが出来ればどうとでもなるよね。find の方が融通が効くからいろい
ろ指定したいときは Namazu でも find 使ってるな、俺。
0060名無しさん@お腹いっぱい。NGNG
いっそのこと、デフォルトで標準入力からファイルのリストを取るようにすればいいのにね。
そうすりゃ変なミスはしなくなる。ついでに全部URLで指定することにして、
file:///home/hoge/public_html/abc.html
file:///home/hoge/public_html/def.html
とか
http://www.yahoo.com/foo.html
http://www.yahoo.com/bar.html
みたいに指定できれば、ローカルとリモートを区別しないで登録できてよくない?
0061名無しさん@お腹いっぱい。NGNG
断固として日本人が普通に読める名前への改名を要求する。
0062名無しさん@お腹いっぱい。NGNG
df ってなんて読むんですか。
0063名無しさん@お腹いっぱい。NGNG
UNIXに関する言葉のひらがな読みスレッド
http://pc5.2ch.net/test/read.cgi/unix/1001358861/
0064名無しさん@お腹いっぱい。NGNG
>断固として日本人が普通に読める名前への改名を要求する。

儂の妄想:〜いろんな名称・呼び方で紛糾。最終的に「Nanashi」で定着〜
0065名無しさん@お腹いっぱい。NGNG
コート脱いだらハワイの Estraier 萌え
0066名無しさん@お腹いっぱい。NGNG
えすたん
0067名無しさん@お腹いっぱい。NGNG
試しに入れてみたけど、estraierめちゃくちゃいいじゃん。
0068名無しさん@お腹いっぱい。NGNG
estindex: QDBM does not feature iconv
と言い出して動かなくなってしまった。

006968NGNG
ふむ

以前、

>% estindex register test
>
>としてみると
>
>:
>estindex: INFO: ./rfc3675.txt: registered: id=138 wnum=0
>estindex: INFO: test: database closing: fsiz=755995 dnum=35 wnum=0 bnum=114667
>estindex: INFO: test: writing meta information: fsiz=755995 dnum=35 wnum=0 bnum=114667
>estindex: INFO: test: registration completed successfully
>
>となるのは、これはどこか変なんだよな?

とポストした者だが、その後1.2.15にバージョンアップしたところ

>estindex: QDBM does not feature iconv
>と言い出して動かなくなってしまった。

ということのようだ。同様の人はいませんか?
どこが壊れてるんだろう??
0070名無しさん@お腹いっぱい。NGNG
>>68
メッセージ通りだと思われ。

configure のオプションはどうしてる?
qdbm は estraier 付属のもの使ってる? 別途入れてる?

うちは FreeBSD の ports で入れたら同じこと言われたんで、
確認したら別途インスコされた qdbm に --enable-iconv が
入ってなかったんで直したよ。
0071名無しさん@お腹いっぱい。NGNG
じゃあ、改名しなくてもいいから作者は読み方を決めろ。
0072名無しさん@お腹いっぱい。NGNG
Senと書いてChihiroと読むように
Estraierと書いてSnatcherと読む。
0073名無しさん@お腹いっぱい。NGNG
>>72
良いね、スナッチャー。響きも良いし、軽快に動くイメージとも相性よさげ。
「えすとれいや〜」はナンだか変形メカみたいなイメージが…。

ガシ、ガシ、シャキーン!ってカンジ<次世代検索メカ・エストレイヤー
007468NGNG
>>70
情報ありがとう。

est*もqdbmも消してest*から依存性で両方インストールしなおしたり
してもだめだから、libiconvまわりを疑っていた。

あれこれやってみて、

# portupgrade -f -m 'CONFIGURE_ARGS+=--enable-iconv CONFIGURE_ARGS+=--enable-zlib databases/qdbm

したらあっさり動いたなり。

要するに、FreeBSDのportsのestraierは、動く状態になっていないと
いうことで最終解答?
0075名無しさん@お腹いっぱい。NGNG
JavaScriptなしでアンカーにtarget指定できないもんでしょうか?
decanc: target="_blank"
みたいな。
0076名無しさん@お腹いっぱい。NGNG
>>75 ソースいじるしかないと思う。
0077名無しさん@お腹いっぱい。NGNG
SnatcherってEstraierの昔の名前だよね?
コナミっぽくてアレだけど。
0078名無しさん@お腹いっぱい。NGNG
OSXに入れてみた。+kakasi, +mecab ともに問題なく動いた。(最初、mecabの
辞書をUTF8にしてしまってはまったのは内緒だ。)序でに、 darwinportsの
Portfileも書いた。茶筅は昔、試したときにコンパイル出きんかったんで手を
つけてない。

0079名無しさん@お腹いっぱい。NGNG
これからは慧須都霊留とよんでください。
0080名無しさん@お腹いっぱい。NGNG
>>78
乙カレー。

漏れもPBに入れてみるかのぉ。
0081名無しさん@お腹いっぱい。NGNG
OpenOfficeのファイルを検索対象にするにはどうすればいいですか?
0082名無しさん@お腹いっぱい。NGNG
>>81
unzipとperl5.8以上かlvあたりありゃ出来るんじゃない?
0083名無しさん@お腹いっぱい。NGNG
>>82
81じゃないけど、感動した。
gzipじゃないので、zcatができないのが辛いけど。
0084名無しさん@お腹いっぱい。NGNG
> 要するに、FreeBSDのportsのestraierは、動く状態になっていないと
> いうことで最終解答?

どうもそうらしい。QDBMのportsの作りなおし希望!
0085名無しさん@お腹いっぱい。NGNG
windowsに入れてみたかったけれどよくわからなかったので、
Google DeskTop Searchにしてしまいました。
# UNIX系のツールは敷居が高くて難しいよ。
0086名無しさん@お腹いっぱい。NGNG
Google Desktop Search が Unixで動いても
よいんだがそうじゃないわけで。
0087名無しさん@お腹いっぱい。NGNG
メールボックス(Sylpheed)の検索に使っているのですが、新しくメールが届いた
時に、新着の分だけインデックスに登録することってできますか?
今のところcronでやってるのですが、やっぱりすぐ反映された方が便利なわけで、、、
0088名無しさん@お腹いっぱい。NGNG
ポーリングすりゃいいじゃん。
0089名無しさん@お腹いっぱい。NGNG
>>88はロートル

0090名無しさん@お腹いっぱい。NGNG
受信箱直下にある状態でインデックスしても、すぐ移動されてしまうので意味がない。
どうせなら、フォルダに振り分けたのをトリガーにしてestindexが発動してほしいな。
0091名無しさん@お腹いっぱい。NGNG
fetchmailで取りこむときにインデクサ動かせばいいんじゃなーい?
0092名無しさん@お腹いっぱい。NGNG
そんなんでインデクサ?
0093名無しさん@お腹いっぱい。NGNG
ライブラリベースでメーラーに組み込めるようになっていたらいいのになあ。
Matzさんが作ってるメールオーガナイザーはQDBMを直接使っているんだっけ。
0094名無しさん@お腹いっぱい。NGNG
メールオーガナイザーはなんで公開されないんだ?
0095名無しさん@お腹いっぱい。NGNG
>>94
GPLじゃないから
0096名無しさん@お腹いっぱい。NGNG
estはGPLじゃなかったっけ?
0097名無しさん@お腹いっぱい。NGNG
>>96
>>94
0098名無しさん@お腹いっぱい。NGNG
というかGPL=何でも公開という誤った認識はさっさと捨てろ。
バイナリを頒布しない限りはソースの入手可能性を保証する義務は生じないぞ。
そうでないとプライバシーの権利を損ねることになるからだ。
0099名無しさん@お腹いっぱい。NGNG
一見さんお断りのお店みたいなもんだな。
馴染み客に紹介してもらえば出入りできるようになる。
ただ一見さんお断りの場合は紹介者の信用が担保となるので
でたらめな新しい客は入ってこないんだが、
GPLのバイナリ頒布は再配布にリスクが伴わないのが問題だな。

0100名無しさん@お腹いっぱい。NGNG
binary頒布しても、ハンドアセンブルして 16進ダンプを
打ち込んだと主張すれば source開示しなくていいですか?
0101名無しさん@お腹いっぱい。NGNG
Namazuじゃなくてこれを使う意味ってなにかあるの?
0102名無しさん@お腹いっぱい。NGNG
>>100
ライセンスあれこれ
http://pc5.2ch.net/test/read.cgi/unix/1032702590/
0103名無しさん@お腹いっぱい。NGNG
>>101
多分こっちの方がよくできている。
Namazuのアドバンテージはフィルタが豊富なことぐらいかな。
0104名無しさん@お腹いっぱい。NGNG
googleのPageRankみたいな機能は特許でいれられないの?
0105名無しさん@お腹いっぱい。NGNG
>>104
ttp://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=/netahtml/srchnum.htm&r=1&f=G&l=50&s1=6285999.WKU.&OS=PN/6285999&RS=PN/6285999
0106名無しさん@お腹いっぱい。NGNG
>>105
orz
貼るなら
ttp://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6285999
にしとけばよかった。
0107名無しさん@お腹いっぱい。NGNG
>>101 つーかもはやNamazuを使う理由がないよな。
0108名無しさん@お腹いっぱい。NGNG
>>101
開発力が消えていない。
0109名無しさん@お腹いっぱい。NGNG
以前両方入れてみたけど、結局namazuを使ってるな...
0110名無しさん@お腹いっぱい。NGNG
多少の性能差よりも枯れ慣れノウハウ蓄積の方が
価値を持つ傾向のある世界だからね。
■ このスレッドは過去ログ倉庫に格納されています