Namazu全文検索システム
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
2001/06/14(木) 09:17ID:???http://www.namazu.org/
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718
0201nobodyさん
03/12/20 14:36ID:???特定のファイル(拡張子だけだったかも)を除外する
という設定項目があった様な記憶があるんで、
もしかしたら、それの応用でディレクトリごと無視するとかできるかも。
#具体的にどんな設定をするかは忘れた
#多分namazuの本家サイト見たらあったよ
0202nobodyさん
04/01/02 23:12ID:???という形式なのですが、
こういった動的なページに対してNamazuを使うというか、インデックスを作成するには、
どうすればいいのでしょうか?
0203202
04/01/02 23:13ID:???誤:「http://www.example/com/?cat=★」
正:「http://www.example.com/?cat=★」
0204202
04/01/04 01:18ID:LkXOe+SC0205z33
04/01/04 10:35ID:???replaceでがんばってどうにかできないかな?
例えば
/home/apache/documentroot/test/1.txt
↓
http://www.example.com/?cat=/test/1.txt
って変換だったら
Replace "/home/apache/documentroot" "http://www.example.com/?cat="
とか
こういうこと?
0207nobodyさん
04/01/19 19:55ID:daYuprPNnmz.field.****
の****を増やしたいのですが、どうしたら良いでしょうか?
具体的にはmknmz時にuriを見て
wwwroot/aaa/a.html
wwwroot/bbb/b.html
nmz.field.locate ってファイルを作ると
その中に
aaa
bbb
って出力されてほしい
で検索結果でyahooのカテゴリのように
<a href="a.html">aのタイトル</a>
カテゴリ TOP>>aaa(${locate}の値)とかやりたい
まぁ検索結果の中でuri見て変換したら良いんだけど、
もうちっとスマートに処理させたいなと・・・
0208z33
04/01/20 22:20ID:???ちょっとググッて探してみたら、こんなの見つけたけど
http://www.namazu.org/ml/namazu-users-ja/msg02744.html
参考になる?
0209nobodyさん
04/02/11 00:01ID:???0210nobodyさん
04/02/13 03:38ID:jCzy8g3E2chの過去ログを検索出来るようにしていますけど
ファイル数17万程度でインデックス作成に取り組んでいるのですけど
3日経っても終わりません。。おかしいと思いこちらに来ました。
もっと処理を早くしたいのですが、、
一応何を書けばいいのかわかりませんが、
PCのスペック等を簡単にまず記します。
何か必要な設定項目を書けと言われればすぐ書きますので、、
CPU P3-1G@dual
mem 1G
namazu ver2.0.12
perl 5.6
設定ファイルの中身を弄ればいいのでしょうか。。
一応インデックス書き出しは行われ続けていますけど
遅くて遅くて、、、
何かヒント等くれる方いらっしゃいませんでしょうか、、、?
0211210
04/02/13 03:45ID:jCzy8g3EKAKASI使用
mknmzrc設定
$ON_MEMORY_MAX = 5000000;
$FILE_SIZE_MAX = 10000000;
$TEXT_SIZE_MAX = 1000000;
$WORD_LENG_MAX = 128;
$INVALID_LENG = 128;
$MAX_FIELD_LENGTH = 200;
$WAKATI = $KAKASI;
とりあえずon memory maxの値が小さいのはわかったのですけど
これが速さに関係するのかは理解出来ませんでした。
また、他に問題点や気づく点等がありましたら教えて欲しいです、、
0212nobodyさん
04/02/13 08:37ID:???一気にmknmzするのではなく、分割してmknmz→マージする。
そうすれば処理時間もだいたい想像できる。
0213210
04/02/13 13:43ID:wO1Lum8s少しそれについて調べてみます。
0214森の妖精さん
04/02/16 02:31ID:/mo58UcMGETAのPHPインタフェイス作ろうという奇特な御仁は
いらっしゃいませんか?
0215nobodyさん
04/02/20 12:32ID:???こちらにまとめました。
検索エンジンをつくりたい
http://pc2.2ch.net/test/read.cgi/php/1009030584/l50
0216nobodyさん
04/03/24 21:59ID:???http://pc3.2ch.net/test/read.cgi/unix/1075033822/576
Java の API のリファレンスを Namazu でインデックス化していて
Emacs でプログラミング中にカーソル上のクラス名ですぐ検索したいんです
0217nobodyさん
04/03/31 21:28ID:???「現在-3の文書がインデックス化され、・・・」と文書の数がマイナスになっています。
どうしてなのでしょうか。
0218nobodyさん
04/03/31 21:46ID:5e+SzBpf0219(´・ω・`)
04/04/01 21:05ID:98Q5EoMa日本語全文検索エンジンソフトウェアを教えてください。
0220nobodyさん
04/04/02 00:02ID:n5mwBUCQ0221nobodyさん
04/04/02 22:28ID:???0222nobodyさん
04/04/20 23:55ID:hVBcQucn0223nobodyさん
04/05/01 23:15ID:HE2QfFBX自分で作った辞書を、追加した。
# mkkanwa kanwadict (追加した辞書ファイル)
自分で追加した辞書の内容は、
上記の場合、(追加した辞書ファイル)を参照すれば分かるけど、
現在の辞書全体にどのような単語が登録されているかを調べるにはどうしたらいいんでしょうか?
kanwadictって、viで開くと文字化けして見れません。
※環境:UNIX
0224nobodyさん
04/05/27 15:51ID:CEx1TsW7にアクセス気出ません
0225nobodyさん
04/05/27 16:43ID:mtXfTMbYorz
0226nobodyさん
04/05/27 16:43ID:???0228nobodyさん
04/05/27 19:56ID:WJMdSqlX全文検索システム「Namazu」を配布するNamazu Projectは5月27日、
同プロジェクトのサーバが不正侵入を受けたと発表した。
http://headlines.yahoo.co.jp/hl?a=20040527-00000016-zdn_n-sci
0229nobodyさん
04/05/28 21:23ID:???0230nobodyさん
04/05/28 21:24ID:???0231nobodyさん
04/05/28 21:26ID:???0232nobodyさん
04/05/28 21:28ID:???0233nobodyさん
04/05/28 21:29ID:???0234nobodyさん
04/05/28 22:17ID:???0237nobodyさん
04/05/30 20:09ID:WmFD3m1t0239nobodyさん
04/06/17 19:14ID:KtXfrXmS検索結果について質問なんですけど
ttp://www.kaiho.mlit.go.jp/cgi-bin/namazu.cgi?query=%8B%DF%8AC&max=20&result=normal&sort=score
↑こんな風に検索語句と該当箇所が赤く強調されるのってどうやるんですか?
ttp://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?key=a&submit=%B8%A1%BA%F7%B3%AB%BB%CF%21&whence=0&max=20&format=long&whence=0&dbname=reiki
自分のは↑こんなふうに参照したページの上部しか表示されません。
0240nobodyさん
04/06/17 21:45ID:???http://www.city.katano.osaka.jp/cgi-bin/namazu.cgi?query=%B8%F2%CC%EE&whence=0&max=20&result=normal&sort=score&idxname=reiki
NMZ.headにデフォルトで strong.keyword { color: Red; } あるから、
「ちゃんとしたキーワード」なら赤くなるハズ。
0241nobodyさん
04/06/18 00:33ID:???本当だ・・・キーワードの入れ方がまずかったようです。
自分のnamazuでやり直したらちゃんと表示されました。
無知で申し訳ありません。
0242nobodyさん
04/06/28 15:24ID:???全角文字で検索すると検索語が”%a5%d0%a5%”みたいな感じで文字化けします。
検索結果画面はきちんと表示されますが、検索文字列だけが化けています。
もう一回全角で検索すると文字化けが直ります。1回目だけ必ず文字化けします。
何が原因でしょうか?
0243nobodyさん
04/06/28 15:25ID:???ごめんなさい、無視してください。
0244nobodyさん
04/07/16 18:31ID:???ヒットしたファイルが日本語のファイル名だと、
ブラウザ上に表示されているファイル名を
クリックしてもファイルをオープンしません。
検索対象ファイルの、
ファイル名が日本語でも対応してますか?
ちなみにWindows版(2.0.12)です。
0245nobodyさん
04/07/19 00:54ID:???↑ここ見てnamazuの全文検索システムのソースを入れてみたら
無事に検索は出来るんですが検索された先のリンクがなぜか全てnamazu.phpがある
カレントディレクトリになってしまいます。
これはどうすれば対処することが出来ますかね?
0246nobodyさん
04/07/19 12:51ID:???0247245
04/07/22 13:31ID:???いじってみましたがやはり結果は同じです。
一体どこがおかしいんだろう?
例えばnamazu.phpをC:\homeに置いたら
検索結果はちゃんと表示されるんですがリンクが全て
namazu.phpを置いているディレクトリになってしまいます。(この場合はC:\home)
変えるべきところはnamazurcのReplaceのところとは思うんですが
何度変えても同じ結果になってしまいます。
どうすればちゃんとしたリンク先になってくれるかな?
参考にしたサイト↓
http://ponx.s5.xrea.com/hiki/ja/hiki.cgi?xrea_tdiary_namazu
http://you-like.to/nekomimi/works/w2k20001110.html
0249nobodyさん
04/07/31 19:38ID:???だよね。ちゃんとそうなってる?
0250nobodyさん
04/07/31 19:44ID:???この欄の ${author} が一体何を表示するのかがわからないので
ソースを追跡してみたのですが自分には具体的に読み解くことができませんでした。
sub field_init {
%FieldAlias = (
'author' => 'from' ,
'title' => 'subject' ,
'url' => 'uri' ,
);
あたりまではなんとなく分かるんですが・・・
Perlのすごい人! だれか教えて!
0251nobodyさん
04/08/02 08:46ID:???著者がなにかを知りたいんだったらpnamazuではなく、mknmzのほうを解析するよろし。
0252nobodyさん
04/08/12 09:03ID:???Replace /index.html /
Replace /C\|/namazu/nurupo/ http://hoehoe.ne.jp/~nurupo/
と、2つの置換を行いたいのですが、当然できません。
正規表現が使えるみたいなことが書いてありますが
Replace /C\|/namazu/nurupo/(.+)/index.html http://hoehoe.ne.jp/~nurupo/$1/
では全てが http://hoehoe.ne.jp/~nurupo/$1/ にされてしまいます($1が展開されない)
どうやればこの置換を実現できるのでしょうか?
0253nobodyさん
04/08/12 09:05ID:???0254nobodyさん
04/08/12 09:07ID:???0255nobodyさん
04/08/21 22:26ID:???Namazuの検索結果って、
全部ドキュメントの行頭あたりしか表示しないけど
Googleみたいにマッチした前後の文章を表示できんの?
0259nobodyさん
04/08/24 01:13ID:202RVh+Shttp://find.2ch.net/
0260nobodyさん
04/08/24 06:48ID:???F:\index
+aaa
+001
+002
+003
+bbb
+001
+002
+003
aaaとbbbを指定したいのだが…
ぐぐたら無理ぽいな
ttp://search.luky.org/vine-users.2/msg02960.html
0261nobodyさん
04/08/24 19:02ID:???javascriptとかでチェックボックスをコントロールするとかじゃ駄目か。
0262nobodyさん
04/08/24 22:09ID:???じゃダメ?
F:\index
+ccc
+aaa
+bbb
0263nobodyさん
04/08/25 01:35ID:???数字のフォルダがインデックスで大まかに分けてある。
やはり1つのフォルダ以下にインデックスの入ったフォルダを置くしかないのか。
0264nobodyさん
04/11/11 11:45:47ID:VoJd1QOh0265nobodyさん
04/11/23 11:20:19ID:???0266nobodyさん
04/11/26 13:50:33ID:cbW9i0f7wgetで落したHTMLファイルをNamazuで検索しています。
Namazuの検索結果の順番を自分で決めたいんですが、
NMZ.field.uriの順番をいじると全てのページがNOT FOUNDになってしまいます。
どなたかいい方法知りませんか?
0267nobodyさん
04/11/26 14:41:22ID:???namazuはcなのにmknmzはperlなのはどうして?
0268nobodyさん
04/11/26 14:55:11ID:???インデックスの作成を早くするには分散して作成してからマージすればよいかも。
namazuがcなのはcの方がリクエストの度にコンパイルがない分、早いから、
mknmzはインデックス作る時しか使わないので文字の操作が楽チンなPerlを・・・。
ちなみにpnamazuっていうPerlで書かれたnamazuもある。
たしか2chもread.cgiはCだけど、bbs.cgiはPerlだったと思う。
質問は一個ずつにしてね。
0269nobodyさん
05/01/02 10:01:19ID:Oo1G9Jagうまくいきません。
インデックスを作ろうとするとNKF.pmが無いといわれます。
PPM-INSTALL.BATを動かしてもうまくいきません。どうすればいいのでしょうか?
0270269
05/01/02 12:42:33ID:???0271nobodyさん
05/01/27 22:35:38ID:muSCpH63なんか改善する術ってありますでしょうか? 教えて誰かエロイ人!!
0272nobodyさん
05/02/11 17:47:10ID:LfkZHaha2行目以下のwordなどの設定が対応メディアタイプに反映されません。
2行目以下も#は外しているのですが…。
茶筌のところ#を残しているのですが、それもちょっと変かもです。
うまくいかない原因がわかる方どなたか教えてください。
読み込んだ設定ファイル: D:/namazu/etc/namazu/mknmzrc
システム: MSWin32
Namazu: 2.0.12
Perl: 5.006001
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: chasen -j -F '%m '
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.SJIS
言語: ja_JP.SJIS
文字コード: sjis
CONFDIR: D:/namazu/etc/namazu
LIBDIR: D:/namazu/share/namazu/pl
FILTERDIR: D:/namazu/share/namazu/filter
TEMPLATEDIR: D:/namazu/share/namazu/template
対応メディアタイプ:
application/x-gzip
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-hdml
0273nobodyさん
05/02/11 19:36:57ID:???まず最新の2.0.14を使いましょう。
それと
D:/namazu/etc/namazu/mknmzrc の$ALLOW_FILE
のところを全行はりつけてよ。
どこの#を外したのか見てみないとわからんよ。
0274272
05/02/11 19:40:50ID:???最新って言ってもベータ版らしいので…。
とりあえずこんな感じです。
#
# This pattern specifies file names which will be targeted.
# NOTE: It can be specified by --allow=regex option.
# Do NOT use `$' or `^' anchors.
# Case-insensitive.
#
$ALLOW_FILE =".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
"|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files
"|.*\\.pdf|.*\\.ps" . # PDF, PostScript
"|.*\\.tex|.*\\.dvi" . # TeX, DVI
"|.*\\.rpm|.*\\.deb" . # RPM, DEB
"|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint
"|.*\\.j[sabf]w|.*\\.jtd" . # Ichitaro 4, 5, 6, 7, 8
"|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man
0275nobodyさん
05/02/11 19:43:44ID:???0276nobodyさん
05/02/11 19:49:17ID:???Windows版はβ版扱いになっていますが、
インストーラがβというだけで本体に問題はないですよ。
たぶんフィルタが必要としているMS-Word等の
アプリケーションが入っていないのでしょう。
こちらのフィルタを使うとよいでしょう
ttp://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html
0277nobodyさん
05/02/11 19:53:07ID:???0278272,274
05/02/11 20:00:49ID:???Office2003だということもあるのかな。
拡張子だけで判断してるのではないんですか。
まずは最新版をインストールしてみます。
用事があって今日これからはできないので、うまくいかなかったらまた後日質問させてもらいます。
回答ありがとうございました。
0279nobodyさん
05/03/10 15:52:52ID:???ページが増えてきたので階層ごとにインデックスを作成し階層ごとに検索ページを
作りたいと考えております。しかしインデックスファイルを作成しnamazuコマンドでは
検索できるのですがブラウザから
http://サーバIPアドレス/cgi-bin/namazu.cgi?idxname=aaaとすると
allインデックスから検索されてしまいaaaインデックスから結果を表示してくれません。
aaaインデックスから結果を表示するにはどのようにするのでしょうか?
ページの階層
/apache/htdocs/aaa
/apache/htdocs/bbb
/apache/htdocs/ccc
インデックスの格納場所
/apache/cgi-bin/namazu/index/all
/apache/cgi-bin/namazu/index/aaa
index/all内のNMZ.head.ja
<input type="hidden" name="idxname" value="all"> ←allに変更
<a href="{cgi}?idxname=all">[検索方法]</a> ←?idxname=allを追加
index/aaa内のNMZ.head.ja
<input type="hidden" name="idxname" value="aaa"> ←aaaに変更
<a href="{cgi}?idxname=aaa">[検索方法]</a> ←?idxname=aaaを追加
cgi-bin内にある.namazurc
Index /apache/cgi-bin/namazu/index
Template /apache/cgi-bin/namazu/index/all
Replace /apache/htdocs/ http://サーバIPアドレス/
0281279
05/03/11 09:08:13ID:???mknmz -O /apache/cgi-bin/namazu/index/all /apache/htdocs
合計の文書数 602
合計キーワード 5,499
わかち書き module_kakasi -ieuc -oeuc -w
mknmz -O /apache/cgi-bin/namazu/index/aaa /apache/htdocs/aaa
合計の文書数 9
合計キーワード 441
わかち書き module_kakasi -ieuc -oeuc -w
よろしくお願いします。
0282279
05/03/11 16:15:26ID:8QvGuHRhKAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
application/pdf
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; xtype=rfc
text/x-hdml
text/x-roff
0283279
05/03/11 16:20:49ID:???mknmz -C
読み込んだ設定ファイル: /etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.12
Perl: 5.008
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
application/pdf
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; xtype=rfc
text/x-hdml
text/x-roff
0284nobodyさん
05/03/12 00:24:13ID:???Template /apache/cgi-bin/namazu/index/all
としているから
常に index/all内のNMZ.head.ja
が読み込まれているということでないか
namazurcのTemplateの行をコメントアウトしてみたら
0285nobodyさん
05/03/17 23:30:42ID:???亀レスだけど、
Namazuでは 「/cgi-bin/namazu.cgi?idxname=aaa」 みたいな直接指定はNGだったはず。
きちんとhiddenとかから送らないと。
0286nobodyさん
2005/03/22(火) 21:53:42ID:???それってどこでNGにしてるんでしょ。Namazu本体じゃなくて
pnamazuとかインターフェースのところでやってるんですよね。
0287279
2005/03/30(水) 18:10:10ID:???検証が遅くなり申し訳ありませんでした。
サーバIPアドレス/cgi-bin/namazu.cgi?idxname=インデックス名&query=キーワード
で検索したらうまくできました。htmlにhiddenで指定した場合もOKでした。
ご教授ありがとうございました。
しかし検索結果はOKなのですが、aaaインデックスを検索しても結果はOKなのですが
ヘッダーの部分がallのもので表示されてしまいます。
(現在602 の文書がインデックス化され5,499 個のキーワード)
検索結果ページから再検索するとあるはずのページでも検索できません。
(allインデックス及びaaaインデックス両方とも。インデックスネームがうまく指定されない為?)
namazurcのTemplate部分をコメントアウトするとインストール時?の古いインデックスが
表示されてしまいます。
複数インデックスがある時のTemplate指定はどのように行っているのでしょうか?
0288nobodyさん
2005/03/31(木) 00:35:45ID:???Templateが選択される順序は説明書にあるとおり
http://www.namazu.org/doc/manual.html#form-idxnames
再検索をする際にWebブラウザで表示ページのソースを調べて
どのNMZ.headが読み込まれているか確かめてはどうですか。
0289nobodyさん
2005/11/11(金) 14:19:22ID:lZiu1JMN日本語全文検索ってほぼGoogleでカバーできてるのでは?
Winではあまり普及していないらしいし、導入に面倒がありそうだし
今、敢えてNamazuで検索を作るうまみってなんですか?
0290nobodyさん
2005/11/11(金) 20:34:38ID:???0291nobodyさん
2005/11/12(土) 23:40:29ID:???0292nobodyさん
2005/11/13(日) 06:11:00ID:???イントラの情報を検索できること
検索結果画面をカスタマイズできること
カテゴリ検索ができること
文書の最終更新日をファイルスタンプから識別できること
0293nobodyさん
2005/11/13(日) 08:31:58ID:???0295nobodyさん
2005/11/14(月) 10:06:19ID:???なるほど、イントラ内検索がGoogleにはないうまみっぽいですね。
だんだん鯰の位置づけがおぼろげながらわかってきました。
どうもありがとうございます。
0296nobodyさん
2005/11/14(月) 12:47:16ID:???あれは便利だお。
0297nobodyさん
2005/11/14(月) 16:16:53ID:???0298nobodyさん
2005/11/16(水) 14:03:06ID:???0299nobodyさん
2005/11/17(木) 13:26:17ID:???⊂⌒( ・ω・) はいはいわろすわろす
`ヽ_っ⌒/⌒c
⌒ ⌒
0300nobodyさん
2005/11/18(金) 11:32:18ID:ngwfG4IKハイライトされて、(そのページの上のほうからのテキストだけでなく)
検索された部分が表示されるというやるがあるらしいよ
と先輩に言われたのですが、どこにありますか?
あるいはカスタマイズで処理するもんなのですか?
教えてください。
■ このスレッドは過去ログ倉庫に格納されています