トップページphp
118コメント36KB

【全文検索】groonga【senna後継】

■ このスレッドは過去ログ倉庫に格納されています
0001nobodyさん2011/11/01(火) 15:23:37.63ID:zBzeEu6N
ないようなので立ててみました

* groonga
http://groonga.org/ja/

* mysqlに組み込むgroongaストレージ(mroonga)
http://mroonga.github.com/

関連スレ
組み込み型全文検索エンジンSenna
http://hibari.2ch.net/test/read.cgi/php/1118762053/
0002nobodyさん2011/11/01(火) 15:37:41.26ID:zBzeEu6N
トリトンのように、テーブル作成時にcharsetを指定すればujisが使えると思っていたのですが
invalid utf8 string(1) on grn_str_charlen_utf8というエラーが出て、
結果も思ったようなものになりません。

mroongaでujisのテーブルを使うには何か特別な処理が必要なのでしょうか?
CentOS5のRPMを使っています。
0003nobodyさん2011/11/01(火) 19:34:52.39ID:z/VwsptC
期待あげ
0004nobodyさん2011/11/02(水) 01:35:18.61ID:???
Apache Solrでいいじゃん。
みんな使ってるし。


終了


0005nobodyさん2011/11/02(水) 01:47:09.66ID:???
ソーラーってmysqlに全文検索を追加できるの?
使い方は別物じゃね
0006nobodyさん2011/11/02(水) 13:08:42.09ID:???
名前に-を含んだデータベースを作る
→groongaのテーブルを作る
→テーブルを削除しようとする
→エラーで削除できない

俺だけ?
0007nobodyさん2011/11/02(水) 13:47:50.71ID:???
SQLだとどうやっても削除できないから手でファイルを直接いじったよ
0008nobodyさん2011/11/03(木) 12:18:36.89ID:???
solrって最小のvpsで動かなかった
tritonnとhyperestraierでうまくいった
0009nobodyさん2011/11/03(木) 14:54:42.82ID:???
マシンスペックが必要ってこと?
javaだっけ
0010nobodyさん2011/11/04(金) 12:43:07.20ID:toxVjfjM
ラッパーモードのmyisamでdrop indexしたらエラーになる?
innodbならOKだった
色々検索したらmyisamはあんまり推奨じゃない感じかな
そもそもmyisamとの相性が悪いからgroonga開発したらしいし
0011nobodyさん2011/11/04(金) 15:59:40.52ID:???
まだこれつかうには危険な感じが...
ソーラーはmysqlで追加できないと思った

0012nobodyさん2011/11/04(金) 17:53:37.93ID:???
ストレージモードでグルーンガファイルをバックアップ→いったん削除→リストア
ってやったらmysqlへのアクセスではエラーになった
groongaのdbをmysqlのテーブル定義に後から紐づけるのはどうしたらいいんだろ
0013nobodyさん2011/11/04(金) 18:00:38.99ID:???
>>11
たしかに若干バギーな感じはある
でもトリトンももうmysqlのバージョンが古いしなぁ
0014nobodyさん2011/11/08(火) 22:22:23.22ID:g2UShAi7
ログファイル置き場を指定できるようにして欲しい
/var/log/mysql/にまとめたいだろJK
0015nobodyさん2011/11/08(火) 22:38:27.01ID:???
まだ実用になるレベルではないな
とりあえずtritonnを置き換えられるようになってほしい
0016nobodyさん2011/11/08(火) 22:47:55.69ID:???
とりあえず使えはするんだよね
運用の際のメンテとかまで考え出すと
まだ煮詰まってないなーって思う
0017nobodyさん2011/11/09(水) 02:24:54.41ID:???
>>14
お、書き込み時間が2ならび
0018nobodyさん2011/11/09(水) 18:31:49.16ID:hLMmSgdX
php、perlはNAMAZUを使って。
レコメンドはvogooでも使えよ。
javaはLucenceでレコメンドはmahountでよくない?
0019nobodyさん2011/11/18(金) 02:37:51.17ID:alrmOFGr
SQL_CALC_FOUND_ROWSとlimitとorder byを同時に使うと
limitで制限した行数が全行数になるね
order byがないと全行数が正確に取れる。
groongaだけなのか、デフォルトの全文検索もそうなのかは検証してないけど
とりあえず普通のmyisamは、order byがあっても全行数が変わることはなかった
0020nobodyさん2011/11/18(金) 02:40:22.64ID:???
268 名前:nobodyさん[sage] 投稿日:2011/06/01(水) 17:59:58.68 ID:???
limit a,b 指定で b の抽出件数指定は効くんだけど、a がゼロから効かない。
100,10 や 1000, 10 と指定しても、0, 10 と同じ結果。
フルテキストインデックス再構築したけど同じ。
インストした頃はちゃんと表示されたはずなんだが…。

sennaスレのこれと同じ現象かな?
0021nobodyさん2011/11/23(水) 16:48:35.95ID:???
2ind機能はやくサポートしてほしい
0022nobodyさん2011/11/27(日) 19:24:02.17ID:???
ここにいる人たちは、全文検索を利用している人たちだと思うので質問させてください
(別スレにて誘導されました)

皆さんは日本語の全文検索をどのようにされていますでしょうか?
Tritonnをみると、MySQLのバージョンが結構古いみたいなのでどうなのかなと思うのですが、
どのように対策をされていますでしょうか?
>>15のように、まだ実用的ではないという事は、Tritonnの方がいいのでしょうか?


また、中には自分でN-gramによって対策をしている人などもいるようですが、日本語の全文検索に対する対策は、N-gramとかで自分で実装する、Tritonnなどを入れる以外にはないのでしょうか?

0023nobodyさん2011/11/28(月) 22:13:12.47ID:???
だからSolr使えって。
0024nobodyさん2011/12/01(木) 22:45:40.09ID:86xGKL6Y
groongaとトリトンのベンチマークはかった人いる?
なんとなく、体感だけどgroongaが遅い感じがする
0.5秒くらいかかってる
もう一度検索したら、0.000数秒でめっちゃ速い
それはキャッシュが効いているのか、
一回目の検索でインデックス的なものが整理されたのか分からないけど。
0025nobodyさん2011/12/01(木) 22:47:32.62ID:???
>>22
唯一の答えはないと思いますよ
俺はトリトンからgroongaへの移行を進めていますが
今のところ、どっちかの方があきらかにいい、と言える状況ではないと思います
0026nobodyさん2011/12/04(日) 13:06:30.66ID:???
もしかして日本語の全文検索に関してはpostgresqlのほうがいい?
0027nobodyさん2011/12/06(火) 06:42:27.34ID:???
groongaを語る夕べ #2 November 29, 2011 12:18 PM
http://www.ustream.tv/recorded/18817014

めも
0028nobodyさん2011/12/06(火) 20:01:30.76ID:???
バージョンアップしてたから
mysql動かしたままupdateしたら
groongaがストレージから消えた
updateする時はサービス止めてからやらないといけないのかって当たり前か
0029nobodyさん2011/12/29(木) 17:09:50.14ID:???
gronnga 1.2.9 has been released.
0030nobodyさん2011/12/29(木) 17:55:48.42ID:???
>gronnga 1.2.9 has been released.

>>19の件は直ったのかな?
0031nobodyさん2011/12/30(金) 01:13:40.52ID:???
>>30
mroonga 1.10で修正済み。
http://mroonga.github.com/ja/docs/news.html#release-1-10
> FOUND_ROWS()とSQL_CALC_FOUND_ROWSに対応。

ちなみにmroongaは現在1.11が最新。
0032nobodyさん2011/12/30(金) 11:02:55.70ID:???
そろそろTritonnから乗り換えられそうかな。
0033nobodyさん2012/01/01(日) 20:30:32.70ID:???
更新はえーッス
0034nobodyさん2012/01/02(月) 15:42:35.73ID:???
Fedora15サポート削除早いよって思ったけどソースからビルドしてるので
試したらFedora15でもgroonga 1.2.9動いた
0035nobodyさん2012/01/25(水) 23:54:10.87ID:???
groonga-1.2.9 を -d --protocol http でサーバにして動かしていますが、
検索にヒットした文書から、類似した文書を検索することは可能でしょうか?

ttp://groonga.org/ja/docs/expr.html によると
> 類似文書検索や近傍検索のような高度な検索もすべてgrn_exprによって記述できます。

と書いてありますので select の --scorer に何らかの grn_expr を記述すればできそうにも思うのですが、
文書に含まれる語彙同士の類似度計算をどのように記述すれば良いのでしょうか…orz
0036nobodyさん2012/01/26(木) 18:01:19.59ID:???
2文書間での、類似度の計算法としてはこんなのがあるけど
ttp://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/hayashi/node20.html

これをじゃぁどうやって grn_exprで書くんだろうねぇ

grn_expr のもうちょっと詳細な書き方はこんな文書があるけど
ttp://groonga.org/docs/contribution/development/query.html#id4

後の方に載っている「クエリの実例」ってのは多分これC APIとしての書き方じゃないか

類似文書を検索するには、2文書について処理をしなければならないわけだけど、
「ある文書」にアクセスするためには、その文書のカラム名を記載すればいいけど、
「他の文書」にアクセスする方法が分からないから記載できないな
■ このスレッドは過去ログ倉庫に格納されています