【全文検索】groonga【senna後継】

**nobodyさん** · 2011/11/01(火) 15:23:37.63

ないようなので立ててみました

* groonga
http://groonga.org/ja/

* mysqlに組み込むgroongaストレージ(mroonga)
http://mroonga.github.com/

関連スレ
組み込み型全文検索エンジンSenna
http://hibari.2ch.net/test/read.cgi/php/1118762053/

**nobodyさん** · 2011/11/01(火) 15:37:41.26

トリトンのように、テーブル作成時にcharsetを指定すればujisが使えると思っていたのですが
invalid utf8 string(1) on grn_str_charlen_utf8というエラーが出て、
結果も思ったようなものになりません。

mroongaでujisのテーブルを使うには何か特別な処理が必要なのでしょうか？
CentOS5のRPMを使っています。

**nobodyさん** · 2011/11/01(火) 19:34:52.39

期待あげ

**nobodyさん** · 2011/11/02(水) 01:35:18.61

Apache Solrでいいじゃん。
みんな使ってるし。

終了

**nobodyさん** · 2011/11/02(水) 01:47:09.66

ソーラーってmysqlに全文検索を追加できるの？
使い方は別物じゃね

**nobodyさん** · 2011/11/02(水) 13:08:42.09

名前に-を含んだデータベースを作る
→groongaのテーブルを作る
→テーブルを削除しようとする
→エラーで削除できない

俺だけ？

**nobodyさん** · 2011/11/02(水) 13:47:50.71

SQLだとどうやっても削除できないから手でファイルを直接いじったよ

**nobodyさん** · 2011/11/03(木) 12:18:36.89

solrって最小のvpsで動かなかった
tritonnとhyperestraierでうまくいった

**nobodyさん** · 2011/11/03(木) 14:54:42.82

マシンスペックが必要ってこと？
javaだっけ

**nobodyさん** · 2011/11/04(金) 12:43:07.20

ラッパーモードのmyisamでdrop indexしたらエラーになる？
innodbならOKだった
色々検索したらmyisamはあんまり推奨じゃない感じかな
そもそもmyisamとの相性が悪いからgroonga開発したらしいし

**nobodyさん** · 2011/11/04(金) 15:59:40.52

まだこれつかうには危険な感じが...
ソーラーはmysqlで追加できないと思った

**nobodyさん** · 2011/11/04(金) 17:53:37.93

ストレージモードでグルーンガファイルをバックアップ→いったん削除→リストア
ってやったらmysqlへのアクセスではエラーになった
groongaのdbをmysqlのテーブル定義に後から紐づけるのはどうしたらいいんだろ

**nobodyさん** · 2011/11/04(金) 18:00:38.99

>>11
たしかに若干バギーな感じはある
でもトリトンももうmysqlのバージョンが古いしなぁ

**nobodyさん** · 2011/11/08(火) 22:22:23.22

ログファイル置き場を指定できるようにして欲しい
/var/log/mysql/にまとめたいだろJK

**nobodyさん** · 2011/11/08(火) 22:38:27.01

まだ実用になるレベルではないな
とりあえずtritonnを置き換えられるようになってほしい

**nobodyさん** · 2011/11/08(火) 22:47:55.69

とりあえず使えはするんだよね
運用の際のメンテとかまで考え出すと
まだ煮詰まってないなーって思う

**nobodyさん** · 2011/11/09(水) 02:24:54.41

>>14
お、書き込み時間が2ならび

**nobodyさん** · 2011/11/09(水) 18:31:49.16

php、perlはNAMAZUを使って。
レコメンドはvogooでも使えよ。
javaはLucenceでレコメンドはmahountでよくない？

**nobodyさん** · 2011/11/18(金) 02:37:51.17

SQL_CALC_FOUND_ROWSとlimitとorder byを同時に使うと
limitで制限した行数が全行数になるね
order byがないと全行数が正確に取れる。
groongaだけなのか、デフォルトの全文検索もそうなのかは検証してないけど
とりあえず普通のmyisamは、order byがあっても全行数が変わることはなかった

**nobodyさん** · 2011/11/18(金) 02:40:22.64

268 名前：nobodyさん[sage] 投稿日：2011/06/01(水) 17:59:58.68 ID:???
limit a,b 指定で b の抽出件数指定は効くんだけど、a がゼロから効かない。
100,10 や 1000, 10 と指定しても、0, 10 と同じ結果。
フルテキストインデックス再構築したけど同じ。
インストした頃はちゃんと表示されたはずなんだが…。

sennaスレのこれと同じ現象かな？

**nobodyさん** · 2011/11/23(水) 16:48:35.95

2ind機能はやくサポートしてほしい

**nobodyさん** · 2011/11/27(日) 19:24:02.17

ここにいる人たちは、全文検索を利用している人たちだと思うので質問させてください
（別スレにて誘導されました）

皆さんは日本語の全文検索をどのようにされていますでしょうか？
Tritonnをみると、MySQLのバージョンが結構古いみたいなのでどうなのかなと思うのですが、
どのように対策をされていますでしょうか？
>>15のように、まだ実用的ではないという事は、Tritonnの方がいいのでしょうか？

また、中には自分でN-gramによって対策をしている人などもいるようですが、日本語の全文検索に対する対策は、N-gramとかで自分で実装する、Tritonnなどを入れる以外にはないのでしょうか？

**nobodyさん** · 2011/11/28(月) 22:13:12.47

だからSolr使えって。

**nobodyさん** · 2011/12/01(木) 22:45:40.09

groongaとトリトンのベンチマークはかった人いる？
なんとなく、体感だけどgroongaが遅い感じがする
0.5秒くらいかかってる
もう一度検索したら、0.000数秒でめっちゃ速い
それはキャッシュが効いているのか、
一回目の検索でインデックス的なものが整理されたのか分からないけど。

**nobodyさん** · 2011/12/01(木) 22:47:32.62

>>22
唯一の答えはないと思いますよ
俺はトリトンからgroongaへの移行を進めていますが
今のところ、どっちかの方があきらかにいい、と言える状況ではないと思います

**nobodyさん** · 2011/12/04(日) 13:06:30.66

もしかして日本語の全文検索に関してはpostgresqlのほうがいい？

**nobodyさん** · 2011/12/06(火) 06:42:27.34

groongaを語る夕べ #2 November 29, 2011 12:18 PM
http://www.ustream.tv/recorded/18817014

めも

**nobodyさん** · 2011/12/06(火) 20:01:30.76

バージョンアップしてたから
mysql動かしたままupdateしたら
groongaがストレージから消えた
updateする時はサービス止めてからやらないといけないのかって当たり前か

**nobodyさん** · 2011/12/29(木) 17:09:50.14

gronnga 1.2.9 has been released.

**nobodyさん** · 2011/12/29(木) 17:55:48.42

>gronnga 1.2.9 has been released.

>>19の件は直ったのかな?

**nobodyさん** · 2011/12/30(金) 01:13:40.52

>>30
mroonga 1.10で修正済み。
http://mroonga.github.com/ja/docs/news.html#release-1-10
> FOUND_ROWS()とSQL_CALC_FOUND_ROWSに対応。

ちなみにmroongaは現在1.11が最新。

**nobodyさん** · 2011/12/30(金) 11:02:55.70

そろそろTritonnから乗り換えられそうかな。

**nobodyさん** · 2012/01/01(日) 20:30:32.70

更新はえーッス

**nobodyさん** · 2012/01/02(月) 15:42:35.73

Fedora15サポート削除早いよって思ったけどソースからビルドしてるので
試したらFedora15でもgroonga 1.2.9動いた

**nobodyさん** · 2012/01/25(水) 23:54:10.87

groonga-1.2.9 を -d --protocol http でサーバにして動かしていますが、
検索にヒットした文書から、類似した文書を検索することは可能でしょうか?

ttp://groonga.org/ja/docs/expr.html によると
> 類似文書検索や近傍検索のような高度な検索もすべてgrn_exprによって記述できます。

と書いてありますので select の --scorer に何らかの grn_expr を記述すればできそうにも思うのですが、
文書に含まれる語彙同士の類似度計算をどのように記述すれば良いのでしょうか…orz

**nobodyさん** · 2012/01/26(木) 18:01:19.59

2文書間での、類似度の計算法としてはこんなのがあるけど
ttp://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/hayashi/node20.html

これをじゃぁどうやって grn_exprで書くんだろうねぇ

grn_expr のもうちょっと詳細な書き方はこんな文書があるけど
ttp://groonga.org/docs/contribution/development/query.html#id4

後の方に載っている「クエリの実例」ってのは多分これC APIとしての書き方じゃないか

類似文書を検索するには、2文書について処理をしなければならないわけだけど、
「ある文書」にアクセスするためには、その文書のカラム名を記載すればいいけど、
「他の文書」にアクセスする方法が分からないから記載できないな