ページ内検索CGI

**名無しさん＠お腹いっぱい。** · 01/11/23 15:56

自分のHP内の単語を検索できるCGIを探しています。
どなたかある場所を知っている方はいませんか？

**名無しさん＠お腹いっぱい。** · 01/11/26 02:09

>>8
http://www.hyuki.com/netserv/google.html

**名無しさん＠お腹いっぱい。** · 01/11/28 01:33

>6
やっぱり、なまずがいいと思う。けどシェル使えないとできないよね？

**親切な人** · 01/11/28 01:36

ヤフーオークションで、凄い人気商品、発見！！！

コピーガードキャンセラー↓
http://page2.auctions.yahoo.co.jp/jp/auction/b18032656

注目のオークションに適用される事、
間違いないですね。

私も買いました。

皆も買いましょう。

**名無しさん＠お腹いっぱい。** · 01/11/28 11:46

>>10
ローカルでインデックス作ってアップロード

**名無しさん＠お腹いっぱい。** · 01/12/16 04:09

個人、ではなく法人の Web ページを作っているのですが、
やはり検索システムをどうするかで迷っています。namazu
よりいい(速いとか、複雑な検索式が使えるとか)全文検索
システムや、文節を区切らない完全な全文検索システムで
フリーのものはありますか？

(文節を区切らない ≒ 日本語に依存しないということで、
海外のサイトで聞く方がいい？)

**名無しさん＠お腹いっぱい。** · 01/12/16 04:36

＞文節を区切らない ≒ 日本語に依存しない
どう言うことﾃﾞｽｶ?
解説ｷﾎﾞﾝ

13 · 01/12/16 05:11

>>14
namazu だと文節区切りに chasen を使うか kakasi を使う
かとか、いろいろ考えることありますよね？文節を切らな
くてもいいのであれば、日本語コードの統一さえすれば日本
語固有の問題について考える必要はずっと少なくなります。

要するに、文節を考えなければ binary string から binary
string を探す問題に落ちるので、言語依存は少なくなると
いう話です。

**名無しさん＠お腹いっぱい。** · 01/12/16 06:04

形態素解析無しでってことは、N-Gramとかを
利用したものってことかい？

**名無しさん＠お腹いっぱい。** · 01/12/16 10:31

文字コードの問題が相当あると思うんだけど

15 · 01/12/16 18:11

>>16
N-gram を明示的に覚えさせるのはスペース食いすぎますよね。
その辺をどうするか、圧縮方法などについても最近いろいろ研
究されてるみたいですけど、フリーの実装は無いかな、と。

>>17
日本語と決め打てば、例えば全て EUC にした後(SJIS との混同
問題はとりあえず考えません)の binary match で OK ですよね？

あとは空白類をどうするか(たぶん全て省いてしまう)と、1 バイト
ずれた時にどうするか(各 EUC 文字の前に 0x7f とか適当に挿入
しておけば OK) を押さえれば問題ないと思うのですが。

**名無しさん＠お腹いっぱい。** · 02/01/27 15:34

>18
で結局どうなったですか？

**名無しさん＠お腹いっぱい。** · 02/02/01 14:20

>>18
そんだったらutf-8とかに揃えたほうがよくない？
でなければ、検索に都合のよい独自エンコーディングを作ってしまうか。

**山崎渉** · 03/01/15 13:55

（＾＾）