トップページunix
987コメント301KB

全文検索エンジンEstraier

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。NGNG
個人用途向けの全文検索エンジンEstraierに関する話題を扱う
スレッドです。

http://estraier.sourceforge.net/
0664名無しさん@お腹いっぱい。2006/04/22(土) 00:10:27
>>663
estmaster内蔵の検索UIは /node/hogehoge/search_ui
estcallを使った場合は /node/hogehoge/search に接続しているから、
たぶん処理が違っているんじゃないかな。

0665名無しさん@お腹いっぱい。2006/04/22(土) 01:01:29
HEがバージョンあがるたびに、qdbmもあがるので追いかけるのメンドイ。
一体化してくれないかな。
0666名無しさん@お腹いっぱい。2006/04/24(月) 04:39:56
estcmd wordsで文書頻度(DF)を外部データベースに作る場合、
この外部データベースって、estcmd extkeysしたあとは捨てて
いいのかな?
保存しておくと、なんかいいことある?
0667名無しさん@お腹いっぱい。2006/04/24(月) 13:11:46
次回にestkeysを実行する時に使える。
0668名無しさん@お腹いっぱい。2006/04/24(月) 15:24:49
>>667
文書が更新されたのにDFを更新しないのは
おかしくない?
0669名無しさん@お腹いっぱい。2006/04/24(月) 16:21:17
DFを算出する対象のコーパスはでかい方がいいから文書を更新したら
DFのデータベースも更新した方がいいと思うけど、それほど精度は変わらないっぽいね。
でも、そういった意味では、もっと大規模なコーパスでDFのデータベースを作っておいて
それを使い回した方がいい希ガス。
0670名無しさん@お腹いっぱい。2006/04/27(木) 01:07:37
いまWikipediaのアーカイブにestcmd extkeysかけてるんだが、
CPU使用率が30%どまり(DFは外部データベース)。
効率悪いな。
gathererの速度もLuceneのIndexWriterの半分以下。

巨大データを扱うときは、メモリ・IO・同期がキモになると
思うんだが、そういうのをCで書くこと自体が辛いんじゃ
ないか。
アセンブラやらPOSIXやらに依存しまれば、Javaと互角
まではいけるかもしれない。
でも、移植性のある方法で書いたら、どう考えてもJavaのほうが
速くなるはず。
0671名無しさん@お腹いっぱい。2006/04/27(木) 15:44:33
extkeysは-umつけないとあまり意味がないだろ。
0672名無しさん@お腹いっぱい。2006/04/27(木) 18:17:53
>>670
estのgatherの速度はluceneよりは遥かに速いと思うけど、
どういう設定してる?
0673名無しさん@お腹いっぱい。2006/04/27(木) 22:19:50
>>672
LuceneのIndexWriterはsetMaxBufferedDocs(1000)にsetMergeFactor(100)
Hyper EstraierのgathererはDatabaseをDatabase.DBCREAT | Database.DBHUGE

もしかしてset_cache_sizeすればDisk IO待ちが減って速くなるの?
gathererが多少速くなってもestcmd extkeysの遅さはどうしようもないわけだが。
0674名無しさん@お腹いっぱい。2006/04/27(木) 23:53:56
>>673
set_cache_sizeするとすごく速くなるよ。というよりしないと遅い。
extkeysは-umすると多少速くなる。
0675名無しさん@お腹いっぱい。2006/04/30(日) 00:25:37
>>674
set_cache_sizeってどう設定するんですか?
0676名無しさん@お腹いっぱい。2006/04/30(日) 02:16:59
キャッシュを256メガにしたいなら、
db.set_cache_size(1024*1024*256, -1, -1, -1);
0677名無しさん@お腹いっぱい。2006/05/01(月) 05:27:51
estcmd gather の場合は -cs オプションね。>set_cache_size

ところで -um だけど MeCab を --enable-utf8-only オプション付きでコンパイルして
デフォルトの辞書も UTF-8 で構築、かつ Hyper Estraier のソースの mymorph.c を
EUC-JP <-> UTF-8 の変換をしないように変更するとさらに速くなるよ。

--enable-utf8-only オプション付けないと和文が2バイトから3バイトになって
解析対象のデータが多くなる分だけ UTF-8 の辞書を使った方が形態素解析が遅くなるし、
付けたら付けたで UTF-8 の文字単位で解析するようになるから MeCab で
他の文字コードが使えなくなるんで、結局デフォルトのままが無難なわけですが。
0678名無しさん@お腹いっぱい。2006/05/06(土) 19:30:12
manのページを検索したいので以下のようにしました
PATH=$PATH:/usr/local/share/hyperestraier/filter ;export PATH find /usr/share/man -type f |
egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket
としたところ
Bad : modifier in $ (/).
と言ってます。
構文とかぜんぜんわからないバカ者なのですがどうすれば良いでしょうか
教えてくださいませ。
OS=FreeBSD-5.4R
hyperest-v1.1.6です
よろしくおねがいします
0679名無しさん@お腹いっぱい。2006/05/06(土) 23:57:55
「export PATH」の後ろで改行するか、そこに「;」を置く。
0680名無しさん@お腹いっぱい。2006/05/07(日) 11:21:06
>>679
同じでした。
なんだろう?フィルターの当て方に癖があるのかな
0681名無しさん@お腹いっぱい。2006/05/07(日) 11:51:12
FreeBSD ということでもしやと思うが tcsh を使ってんじゃないだろうな。

PATH=...; export ...
という表現の意味はわかってるか?

まずは環境変数にそのパスを加えてふつうに実行してみろ。問題を切り分けるのはそれから。
0682名無しさん@お腹いっぱい。2006/05/07(日) 12:55:17
>>681
>PATH=...; export ...
>という表現の意味はわかってるか?
ありがとうございます。
意味が理解できました。
06836782006/05/08(月) 02:12:21
#echo $PATH
〜:/usr/local/share/hyperestraier/filter
と表示されます。
find /usr/share/man -type f |
 egrep '.*/man[0-9]/.*\[0-3](.gz)*$' |
 estcmd gather -cl -fx ".1,.2,.3,.1.gz,.2.gz,.3.gz" "T@estfxmantotxt" -fz -sd -cm casket -
実行後は
estcmd:INFO:〜(XXX):redistered
ulimit: too many arguments
・・・
estcmd: INFO closing: name=casket dnum=1176 wnum=0 fsiz=7252037 crnum=0 csiz=0
dknum=0
フィルタを読み込めてないって事ですよね?どのようにすれば良いでしょうか?
パスの通し方がまずいのかな?
0684名無しさん@お腹いっぱい。2006/05/08(月) 03:20:28
ulimitはフィルタの中で呼ばれているから、フィルタ自体は呼ばれていると思う。
manかcolかtrのどれかがパスに含まれてないことない?
0685名無しさん@お腹いっぱい。2006/05/08(月) 16:01:35
# echo $path
/sbin /bin /use/sbin /usr/bin /usr/games /usr/local/sbin
/usr/local/bin /usr/X11R6 /usr/local/share/hyperstraier/filter
以上が内容です。

# find /usr/share/share/man | grep -e '.*/man[0-9]' |
estcmd gather -no ft -fx"T@estfxmantotxt" -fz -sd -cm casket -
こんなのをやってみました
ulimit: too many arguments
は出力されなかったのですが、
estcmd : INFO: closing: name=casket dnum=0 wnum=0 fsiz=6898748 crnum=0
csiz=0 dknum=0
こんな表示です
0686名無しさん@お腹いっぱい。2006/05/08(月) 16:32:27
man man
ってやって、manが使える?
which man
which col
which tr
ってやるとどうなる?
0687名無しさん@お腹いっぱい。2006/05/08(月) 17:16:12
>>686
>man man
NO manual entry for man

>which man
/usr/bin/man

>which col
/usr/bin/col

>which tr
/usr/bin/tr

以上が結果です。
パス指定で/usr/binをはずして findコマンドを/usr/bin/findにすればいいのかな?
0688名無しさん@お腹いっぱい。2006/05/08(月) 18:37:18
/usr/local/share/filter/estfxmantotxt /usr/share/man/man1/ls.1.gz
を実行するとどんなエラーが出る?
(/usr/share/man/man1/ls.1.gzは適当なmanのファイルのパスに読みかえて)
0689名無しさん@お腹いっぱい。2006/05/08(月) 19:30:35
man man が出ないのは、今回の例とは関係なくマズいだろ。 manpath はどう
なってるの?

あと、 685 で /usr/share/share/man て書いてあるけど /usr/share/man の
誤記だよね?
0690名無しさん@お腹いっぱい。2006/05/08(月) 21:39:19
>>688
# /usr/local/share/filter/estfxmantotxt /usr/share/man/ja/man1/ls.1.gz
/usr/local/share/filter/estfxmantotxt: Command not found.

# /usr/local/share/hyperestraier/filter/estfxmantotxt /usr/share/man/ja/man1/ks.1.gz
/usr/local/share/hyperestraier/estfxmantotxt ulimit: too many arguments
となります

>>689
>/usr/share/share/man て書いてあるけど /usr/share/man の〜
誤記です

# manpath
/usr/share/man:/usr/local/man:/usr/X11R6/man:/usr/share/openssl/man:
/usr/local/lib/perl5/5.8.8/man:/usr/local/lib/perl5/5.8.8/perl/man
以上です
0691名無しさん@お腹いっぱい。2006/05/08(月) 22:00:14
/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
ulimitの行を消せばいいんでない?
0692名無しさん@お腹いっぱい。2006/05/08(月) 22:56:10
>>691
>/usr/local/share/hyperestraier/filter/estfxmantotxtをエディタで開いて、
>ulimitの行を消せばいいんでない?
メッセージは表示されませんでしたが、結果はかわりません
0693名無しさん@お腹いっぱい。2006/05/09(火) 00:34:12
man /usr/share/man/ja/man1/ls.1.gz
はどうでしょ。
0694名無しさん@お腹いっぱい。2006/05/09(火) 01:05:50
#man /usr/share/man/ja/man1/ls.1.gz
No manual entry for /usr/share/man/ja/man1/ls.1.gz
以上です。
ちなみに/usr/share/man/ja/man1/ls.1.gzは存在してます
0695名無しさん@お腹いっぱい。2006/05/09(火) 11:35:46
man /usr/share/... はもともと出来ないでしょ。

まず、 estfxmantotxt は内部で man を呼んでるから、まず
man ls
とかして見えることを確認する。
しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
来なかったんだろ。

それから、 grep するだけじゃなくて、
〜 | xargs basename | perl -pe 's/(.*)\.(\d)(.gz)?/\2 \1/' | 〜

みたいな変換を噛まして /usr/share/man/man1/ls.1.gz から 1 ls を作りだす。


もしくは estfxmantotxt に「フルパスっぽかったら man コマンドではなく
nroff -man を使う」的なスクリプトを書くか。
0696名無しさん@お腹いっぱい。2006/05/09(火) 12:05:39
FreeBSDのmanだと絶対パス指定できないっぽいから、
フィルタの中のmanの行を
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
に変えるってのはどうでしょ。
nroffは入ってるよね? which nroff
0697名無しさん@お腹いっぱい。2006/05/09(火) 14:54:18
>しかし、 manpath はおかしくないように見えるけれど、なんで man man が出
>来なかったんだろ。
なんでなんでしょうねぇ〜?
OSのインストールで必要最小限のファイルしか選定してないからかもしれません。

只今、別PC(man manが引けるPC)をアップデート&hyperestraierインストールしてます。
0698名無しさん@お腹いっぱい。2006/05/10(水) 11:19:54
1.2.4ちゃんと動いてる?
make checkでエラーが出るんだが。
./estcmd: INFO: 7 (/opt/inst/hyperestraier-1.2.4/doc/index.html): registered
./estcmd: ERROR: exhausting memory
./estcmd: ERROR: /opt/inst/hyperestraier-1.2.4/doc/index.html: no such item
./estcmd: INFO: flushing index words: name=casket dnum=5 wnum=1604 fsiz=27316309 crnum=226 csiz=12856 dknum=0
./estcmd: INFO: closing: name=casket dnum=5 wnum=1733 fsiz=27319842 crnum=0 csiz=0 dknum=0
make: *** [check] Error 1
0699名無しさん@お腹いっぱい。2006/05/10(水) 14:28:17
1.2.5
一応動いてますが
07006782006/05/10(水) 16:49:26
#man man
引けるようになりました。
#whice nroff
/usr/bin/nroff

estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1 | col -b | tr '\t' ' ' | output
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket -

〜〜
troff: fatal error: can't '/usr/local/man/man1/cdcodec.1':no such file or
directory
estcmd: INFO closing: mame=casket dnum=0 wnum=0 fsiz=68698748 crnum=0
csiz=0 dknum=0
以上です。
マシンに言語(eucJP)を設定していないのですが、関係ありますでしょうか?

PS昨日アップデート中、HDDが逝ってしまいました><
0701名無しさん@お腹いっぱい。2006/05/10(水) 17:40:45
環境に依存するからわからないけど、 /usr/local/man/man1/cdcodec.1 は存
在するの? っていうかそのパスなら中身は英語だと思うし、であれば言語は
関係ない。

cdcodec.1 が何かのシンボリックリンクになっていて、リンク先が消えている
のにこのファイルだけ消しわすれ、とかそういう事態ではないかと推測するが。
0702名無しさん@お腹いっぱい。2006/05/10(水) 17:42:57
cdcodecじゃなくて cbcodec か orz

っていうか存在するのは 〜cbcodec.1.gz じゃないの?

何をやったのかいまひとつよくわからん。estfxmantotxt の中にじかに各ファ
イルのパスが書いてあるわけじゃないよね?
07036782006/05/10(水) 18:07:43
estfxmantotxt
60行目
nroff -man /usr/local/man/man1/cbcodec.1.gz | col -b | tr '\t' ' ' | output
に書き換えて
#find /usr/share/man -type f |egrep !.*/man[0-3]' |
estcmd gather -no cl -fx ".gz" "T@estfxmantotxt" -fz -sd -cm casket

/usr/local/man/man1/cbcodec.1.gz:*: warning {p 1,****


こんなん言ってます
0704名無しさん@お腹いっぱい。2006/05/10(水) 18:16:19
/usr/local/man/man1/cbcodec.1.gzをハードコードしちゃダメぽ。

nroff -man "$infile" | col -b | tr '\t' ' ' | output

にすれば、各々のmanファイルを読めるし、さらに、

less "$infile" | nroff -man | col -b | tr '\t' ' ' | output

とすれば、gzipの場合は適切に解凍してくれるんじゃないかな。
lessが必要だけど。

0705名無しさん@お腹いっぱい。2006/05/10(水) 20:46:07
いやそこはふつう zcat (FreeBSD なら gzcat)だろう
0706名無しさん@お腹いっぱい。2006/05/10(水) 20:56:59
zcatの場合、拡張子を調べて分岐しないといけないから面倒じゃね?
lessなら自動判定してくれる。
0707名無しさん@お腹いっぱい。2006/05/10(水) 22:41:54
/usr/share/man/man1/vidcontrol.1.gz:*: warning [p 1, *.*i]: cannot adjust〜


troff: warning [p 1,7.7i]: cannot adjust line
troff: warning [p 1,7.8i]: can't break line

こんなの言ってます。
LANGを指定しても変わりませんでした。
0708名無しさん@お腹いっぱい。2006/05/11(木) 01:22:13
707 はこれまでの質問者と同じ?
っていうか、 .gz というのは gzip で圧縮したファイルだってのは大丈夫?

nroff にせよ troff にせよ、勝手に展開してくれないから、 gzcat なり
less なりで gzip を展開してやらないよね、という流れなのだが、それ理解
できてる?

っていうか何故 troff になってんの?
0709名無しさん@お腹いっぱい。2006/05/11(木) 01:40:40
man の話は自分が使ってる OS のスレでやれ。
0710名無しさん@お腹いっぱい。2006/05/11(木) 04:34:53
>>709
manにフィルターをかけてindexに引っ掛ける話なんですが?

0711名無しさん@お腹いっぱい。2006/05/16(火) 13:36:10
Webクローラのチュートリアルを実行したら
〜[63]:fetching: 1:http://hpux.cs.utah.edu/hppd/cgi-bin/search?package=on&description=on&term=qdm&Search=Serach
estwaver in free():error:chunk is already free
こんな文字を吐いてフリーズするのですがどうしたらいいのでしょう?
Ctrl+Cでも解除されません
0712名無しさん@お腹いっぱい。2006/05/16(火) 22:01:20
クローラはまだ安定してないっぽいね。kill -9で殺すしかないかも。
0713名無しさん@お腹いっぱい。2006/05/17(水) 01:20:25
ありがとうございました。
0714名無しさん@お腹いっぱい。2006/05/17(水) 21:25:02
リモートからestmasterのnode追加するにはプロトコルを使うしかないようですが

$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=NewNode

みたくしても

Bad Request (the action is invalid or lack of parameters)

となってしまうです。
ユーザー名oiraとパスワードはブラウザからmaster_uiに入って設定(sつけた)したもので
おいら的には抜かりないつもりだったんですが
どこを間違ったんでしょう?
$ estcmd --version
Hyper Estraier 1.2.4 on Linux
....
な環境です。
07157142006/05/17(水) 21:35:40
事故レス。
ブラウザから試したらまず
大文字node名ダメ。かつラベル省略不可。
ということのようでした。

$ estcall raw -auth oira oiranopasswd http://localhost:1978/master?action=nodeadd\&name=newnode\&label=new

でうまく行きますね。すまんこ。
0716名無しさん@お腹いっぱい。2006/05/21(日) 13:53:26
Gentoo で portage から HyperEstraier 1.2.6 入れたんですがestcmd gather
で 300 個くらい文書を登録して estcmd optimize したら返ってこない……

Windows の公式バイナリで同じデータためすと 10 秒くらいで返ってくるん
だけどなぁ。ML は文字化けしてて読めないし。
0717名無しさん@お腹いっぱい。2006/05/21(日) 14:30:08
Gentooスレで同じようなこと言ってる奴いなかったか?
とりあえずUSEと同じオプションでソースからmakeして、
make checkが通るかどうか試してみれ
0718名無しさん@お腹いっぱい。2006/05/21(日) 21:32:31
>>716
昔同じようなことになったけど、USE="-bzip2"にしたら正常に動くようになった。
0719名無しさん@お腹いっぱい。2006/05/21(日) 23:14:42
>>717
qdbm 1.8.56, hyperestraier 1.2.6
をとってきて configure & make したら hyperestraier の make check でエラーになりました。

orz% make check
rm -rf casket casket-*
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd create -tr -xl -attr '@uri' seq -attr '@title' str \
-attr '@author' str -attr '@mdate' num -attr '@size' num casket
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=19924487 crnum=0 csiz=0 dknum=0
./estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
LD_LIBRARY_PATH=.:/lib:/usr/lib:/home/orz/lib:/usr/local/lib:/home/orz/local/lib:/home/orz/local/lib ./estcmd put -ws casket ./misc/test001.est
./estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=27265610 crnum=0 csiz=0 dknum=0
./estcmd: INFO: 1 (http://hyperestraier.sourceforge.net/sample.txt): registered
./estcmd: INFO: flushing index words: name=casket dnum=1 wnum=1 fsiz=27266752 crnum=101 csiz=5715 dknum=0
./estcmd: INFO: closing: name=casket dnum=1 wnum=45 fsiz=27266752 crnum=57 csiz=3194 dknum=0
./estcmd: ERROR: casket: database problem
make: *** [check] エラー 1
orz%

>>718
情報 thx です。bzip2 を configure からはずしてもう一度やってみます。
07207192006/05/21(日) 23:45:07
ありがとうございました。手動ビルドで --enable-bzip をはずすと make check が通りました。
また /etc/portage/package.use に hyperestraier -bzip2 でも使えるようになりました。

0721名無しさん@お腹いっぱい。2006/05/22(月) 00:35:05
ユーザガイドによると、bzip2を使うとかなり遅くなるらしく、zlibを進めている
いるけど、なんでgentooのデフォルトはbzip2付きなんだろ。
0722名無しさん@お腹いっぱい。2006/05/25(木) 23:24:02
1.2.7が出たね。
WebクローラからP2Pサーバに分散登録する機能がついた。
かなり大規模な検索エンジンもこれで簡単に作れるようになるのかな。
0723名無しさん@お腹いっぱい。2006/06/06(火) 10:41:41
1.2.8 出たので age
estwaverのhttps対応はいつ?とても便利に使ってるので期待。
0724名無しさん@お腹いっぱい。2006/06/12(月) 19:44:03
@weight属性を全文書につけて順序指定した場合に、
@weightの値が同じ場合、@idでソートされてしまうようなんですが、
これをスコア順にすることってできないんでしょうか?
0725名無しさん@お腹いっぱい。2006/07/03(月) 23:55:29
いつのまにかPerl用API出てたんでage
0726名無しさん@お腹いっぱい。2006/07/11(火) 15:23:45
最近話題ないね。
0727名無しさん@お腹いっぱい。2006/07/11(火) 15:41:41
1.3.2 が出てるじゃん。
ここしばらく頻繁にアップグレードしてる印象があるけど。
0728名無しさん@お腹いっぱい。2006/07/12(水) 21:51:30
作者は最近mixiに入社したらしいね。
0729名無しさん@お腹いっぱい。2006/07/12(水) 22:46:57
はつみみです。
0730名無しさん@お腹いっぱい。2006/07/12(水) 23:03:31
ttp://www.hirax.net/diaryweb/2006/06/03.html
0731名無しさん@お腹いっぱい。2006/07/12(水) 23:21:18
え〜、googleにでもヘッドハントされるんじゃないかと思っていたのに……
なんでそんなところに……
0732名無しさん@お腹いっぱい。2006/07/13(木) 00:10:12
>>731
これ使ったことないけど、そんなに凄い技術なの?
0733名無しさん@お腹いっぱい。2006/07/13(木) 01:03:10
Googleには同じようなことをやっているチームが既にあるわけだし、
多少できる人材が加わったところであまり意味はないような。
それよりは、検索対象のデータをいっぱい持っているけど検索技術が
まだないところに行ってもらった方がよさげ。
0734名無しさん@お腹いっぱい。2006/07/17(月) 22:10:13
WebクローラのSSL対応まだー?
0735名無しさん@お腹いっぱい。2006/07/17(月) 22:26:40
>>734
なにそれ?
Webのクロール機能なんてあるの?
0736名無しさん@お腹いっぱい。2006/07/17(月) 22:38:54
つ ttp://hyperestraier.sourceforge.net/cguide-ja.html
0737名無しさん@お腹いっぱい。2006/07/24(月) 02:50:08
Database::openなんだけど
DRWRITER | DBREADERで読み書きモードでオープンしたら
やっぱりまずい?
検索結果に出てきた文書をそのままoutしてしまいたいんだけど。

試してみると30回ほどやってみてデータの破壊はなかった
0738名無しさん@お腹いっぱい。2006/07/24(月) 08:42:58
DBWRITERだけで読み込みも書き込みもできるよ。
0739名無しさん@お腹いっぱい。2006/07/24(月) 21:34:04
>>738
トンクス。
0740名無しさん@お腹いっぱい。2006/07/27(木) 21:09:15
質問:
検索結果を重要度が高い順に並べたりしてくれるような機能ってありますか?

msearchを使っているのですが、更新が新しいもの順とか、アルファベット順とか
そんな機能しかないのです。
0741名無しさん@お腹いっぱい。2006/07/27(木) 21:27:27
>>740
はい
07427402006/07/27(木) 23:13:06
まじですか?
導入検討します
0743名無しさん@お腹いっぱい。2006/07/31(月) 14:19:32
Estraierで言うところの重要度って何を元に重要度としてるの?
ページの<title>タグとか<h>タグとかを見てたりするの?
0744名無しさん@お腹いっぱい。2006/07/31(月) 17:37:11
>>743
ヒント ユーザーガイド
0745名無しさん@お腹いっぱい。2006/07/31(月) 17:49:42
HTMLの要素の意味とかは特に斟酌しない。基本的には、タグはぜんぶとっぱらっ
て、テキストをぜんぶくっつけたものとして取り込んでいると考えてさしつかえない。
0746名無しさん@お腹いっぱい。2006/08/01(火) 00:02:13
キーワードを登録して重み付けする機能はあるけど。
0747名無しさん@お腹いっぱい。2006/08/01(火) 02:21:59
>>745
読んでる部分はある。titleと、、、あとなんだっけ?
0748名無しさん@お腹いっぱい。2006/08/01(火) 02:50:24
>747
metaとか見てる筈。でもそれくらい。
title は @title 属性にもなるし、本文にも隠しテキストとして入っている。

という話はややっこしいので、 743 にはああ書いた方が伝わると思ったんで
あのように書いた。少なくとも h1 とかで重要度とかいうのは考えてないです
よという感じ。


そもそも 743 の考えている重要度ってのがおれにはよくわかってないんですが。
基本的には H.E. では単語の重要度には Tf-Idf を使ってるよ、てのが答えに
なっているのかな。
0749名無しさん@お腹いっぱい。2006/08/01(火) 03:13:49
estwaverを動かそうとしたらSegmentation faultで落ちるのでがっかり。
0750名無しさん@お腹いっぱい。2006/08/01(火) 07:22:46
俺は、qdbmコンパイルするときに、最適化オプション付けまくったらSEGV。
estcmd gatherでもだけど。
0751名無しさん@お腹いっぱい。2006/08/01(火) 20:36:06
NAMAZUは<title>とか<meta>以外にも何か読んでる?
0752名無しさん@お腹いっぱい。2006/08/01(火) 21:22:35
なぜそれをここで聞く
0753名無しさん@お腹いっぱい。2006/08/04(金) 07:36:15
文書ドラフト(中間フォーマット)について教えてほしいのですが
これは普通(マニュアル通り)に記述してインデックス作成すれば検索できるように
なるのでしょうか?
マニュアルにある「若者たち」をやってみたのですが、検索されません。
どうしたらいいでしょうか?
0754名無しさん@お腹いっぱい。2006/08/04(金) 09:01:44
「どうしたらいいでしょうか?」なんて質問にまともに答えられるわけないだろ。
インデックスを作った時の操作が間違ってるとした言えない。

せめて、実行したコマンドを張り付けるとか、ログを張り付けるとか、実行環境について書くとかしませう。
0755名無しさん@お腹いっぱい。2006/08/04(金) 15:49:18
ありがとうございます。はじめたばかりの初心者です。すいません

# estcmd put casket /home/date.est
estcmd: ERROR: casket:invalid argument

# estcmd version
Hyper Estraier 1.3.4 on FreeBSD
date.estはUTF-8で記述してあります。

実行前には普通にインデックスをは作成しました。
0756名無しさん@お腹いっぱい。2006/08/04(金) 23:34:30
ちゃんとcasketがあるディレクトリで実行してる?
0757名無しさん@お腹いっぱい。2006/08/04(金) 23:46:21
@uriっていう属性がないと登録できないんだけど、ちゃんと入れてる?
@urlじゃだめだよ。それでダメなら、date.estの中身を見せてみ。
0758名無しさん@お腹いっぱい。2006/08/05(土) 04:28:10
>>757,756
ありがとうございます。登録する事が出来ました。@uriの記述でした。

文書ドラフト形式の登録の場合、ファイル毎に登録しなければならないでしょうか?
一括で登録する方法ってありませんでしょうか?
よろしくお願いします。
0759名無しさん@お腹いっぱい。2006/08/05(土) 04:49:51
>>758
文書ドラフトであってもestcmd gatherで登録できる
0760名無しさん@お腹いっぱい。2006/08/16(水) 10:17:26
1.3.7 ageSSL対応期待.使える?
0761名無しさん@お腹いっぱい。2006/08/17(木) 20:42:06
estcmd draft -fh -il ja (file)
ファイル名をつけると
# 1;2c1;2c1〜
と表示します
ファイル名無しだとフリーズするのですが、どうすればいいのでしょうか?
0762名無しさん@お腹いっぱい。2006/08/18(金) 05:22:14
フリーズっていうか、標準入力を読もうとしてブロックしてるだけじゃん。
0763名無しさん@お腹いっぱい。2006/08/18(金) 14:43:03
これって、Cygwinで使えますか?
■ このスレッドは過去ログ倉庫に格納されています