トップページphp
21コメント5KB

ページ内検索CGI

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。01/11/23 15:56ID:kVZIJzDk
自分のHP内の単語を検索できるCGIを探しています。
どなたかある場所を知っている方はいませんか?
00151301/12/16 05:11ID:cvkbkX7u
>>14
namazu だと文節区切りに chasen を使うか kakasi を使う
かとか、いろいろ考えることありますよね? 文節を切らな
くてもいいのであれば、日本語コードの統一さえすれば日本
語固有の問題について考える必要はずっと少なくなります。

要するに、文節を考えなければ binary string から binary
string を探す問題に落ちるので、言語依存は少なくなると
いう話です。
0016名無しさん@お腹いっぱい。01/12/16 06:04ID:???
形態素解析無しでってことは、N-Gramとかを
利用したものってことかい?
0017名無しさん@お腹いっぱい。01/12/16 10:31ID:???
文字コードの問題が相当あると思うんだけど
00181501/12/16 18:11ID:/rU+i0dx
>>16
N-gram を明示的に覚えさせるのはスペース食いすぎますよね。
その辺をどうするか、圧縮方法などについても最近いろいろ研
究されてるみたいですけど、フリーの実装は無いかな、と。

>>17
日本語と決め打てば、例えば全て EUC にした後(SJIS との混同
問題はとりあえず考えません)の binary match で OK ですよね?

あとは空白類をどうするか(たぶん全て省いてしまう)と、1 バイト
ずれた時にどうするか(各 EUC 文字の前に 0x7f とか適当に挿入
しておけば OK) を押さえれば問題ないと思うのですが。
0019名無しさん@お腹いっぱい。02/01/27 15:34ID:???
>18
で結局どうなったですか?
0020名無しさん@お腹いっぱい。02/02/01 14:20ID:???
>>18
そんだったらutf-8とかに揃えたほうがよくない?
でなければ、検索に都合のよい独自エンコーディングを作ってしまうか。


0021山崎渉03/01/15 13:55ID:???
(^^)
■ このスレッドは過去ログ倉庫に格納されています