ページ内検索CGI
■ このスレッドは過去ログ倉庫に格納されています
001815
01/12/16 18:11ID:/rU+i0dxN-gram を明示的に覚えさせるのはスペース食いすぎますよね。
その辺をどうするか、圧縮方法などについても最近いろいろ研
究されてるみたいですけど、フリーの実装は無いかな、と。
>>17
日本語と決め打てば、例えば全て EUC にした後(SJIS との混同
問題はとりあえず考えません)の binary match で OK ですよね?
あとは空白類をどうするか(たぶん全て省いてしまう)と、1 バイト
ずれた時にどうするか(各 EUC 文字の前に 0x7f とか適当に挿入
しておけば OK) を押さえれば問題ないと思うのですが。
■ このスレッドは過去ログ倉庫に格納されています