強化学習

**名無しさん＠お腹いっぱい。** · 2006/08/24(木) 18:55:33

機械学習の一種，強化学習に関する話題．

入門書：
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
A Bradford Book

The MIT Press
Cambridge, Massachusetts
London, England
ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/the-book.html

関東 · 2008/10/26(日) 20:18:36

パソコンに詳しい方いますか？

**名無しさん＠お腹いっぱい。** · 2008/10/27(月) 00:30:54

呼んだ？

**名無しさん＠お腹いっぱい。** · 2008/11/06(木) 15:17:05

>>83
アジア訛りで充分だろ
東洋人丸出しの顔で白人気取りに見えんのも逆に痛いし

**名無しさん＠お腹いっぱい。** · 2008/12/07(日) 11:40:21

>>85
高次に抽象化させることは古典的技術でもできないんだが。無知？

**名無しさん＠お腹いっぱい。** · 2008/12/15(月) 04:09:54

2ヶ月前のレスに煽り入れるなよ。

**名無しさん＠お腹いっぱい。** · 2008/12/18(木) 20:57:11

一週間以上前のレスじゃ、５０歩１００歩だろ。

**名無しさん＠お腹いっぱい。** · 2009/03/24(火) 02:02:00

このスレの流れなら２ヶ月なんて一瞬だろ。
つまり90みたいな馬鹿に触るのは（ｒｙ

**名無しさん＠お腹いっぱい。** · 2009/04/23(木) 13:41:35

１つ発言が進むのに（ｒｙ

**名無しさん＠お腹いっぱい。** · 2009/04/29(水) 01:45:29

>>90
２ヶ月前の本人だということを自分で説明しているのは楽しいのか？

**名無しさん＠お腹いっぱい。** · 2009/05/18(月) 10:59:37

4ヶ月前のレスに煽り入れるなよ。

**名無しさん＠お腹いっぱい。** · 2009/08/01(土) 03:19:44

１ヶ月前のレスに煽り入れるなよ。

**名無しさん＠お腹いっぱい。** · 2009/08/01(土) 04:45:33

2ヶ月前のレスに煽り入れるなよ。

**名無しさん＠お腹いっぱい。** · 2009/09/03(木) 18:49:22

age

**名無しさん＠お腹いっぱい。** · 2009/11/01(日) 18:41:49

>>98のIDがSEXageに見えた。惜しいな。
つか下げろよw

**名無しさん＠お腹いっぱい。** · 2009/12/14(月) 10:54:07

2ヶ月前のレスに煽り入れるなよ。

**名無しさん＠お腹いっぱい。** · 2010/05/26(水) 16:04:01

強化学習で15パズルは解けますか？

**名無しさん＠お腹いっぱい。** · 2010/05/26(水) 18:48:56

最適解を求めるには反復深化しかないと思うけど

**名無しさん＠お腹いっぱい。** · 2010/05/26(水) 19:37:38

最適じゃなくてもいいです
完成すれば

**名無しさん＠お腹いっぱい。** · 2010/05/27(木) 20:47:32

解くだけなら人工知能的な手法使わんでも、正解に近そうな局面を探索し続けてやれば解ける。
強化学習を使った解き方はやってみたことがないのでわからん。

**名無しさん＠お腹いっぱい。** · 2010/05/28(金) 13:22:59

つか下げろよw

**名無しさん＠お腹いっぱい。** · 2010/05/28(金) 23:30:23

オマエモナー

**101** · 2010/06/13(日) 16:28:25

15パズルじゃ状態数が多すぎて、盤面に対応した評価値を保存するのが難しいです
なにかよい方法はありますか？

**107** · 2010/07/02(金) 03:03:58

現在の状態と完成状態との距離を評価値として使っているのですがループしてしまいます
ループから抜け出す方法は何かありますか？

**名無しさん＠お腹いっぱい。** · 2010/07/04(日) 08:15:59

なんでループするんだ？
「距離がより小さい状態」を反復深化で探せば、探索終了ごとに必ず完成状態に近い
状態になると思うんだけど。

**名無しさん＠お腹いっぱい。** · 2010/07/13(火) 02:18:56

強化学習と探索を組み合わせた手法は何か無いのですか？

**110** · 2010/07/14(水) 15:18:38

強化学習で迷路探索をしようと考えています
しかし、ランダムに探索を行ってもゴールまでたどり着かないので強化学習ができません
よい方法はありますか？

**名無しさん＠お腹いっぱい。** · 2010/07/14(水) 19:07:35

それは強化学習になってないでしょ
強化学習は、エージェントが環境に対してアクション起こしてそれに対する報酬を受けることで学習していくものなんだ

最初のうちはどのような行動で高い報酬が得られるか分からないからランダムでもいいけど、次第に学習していくんだからランダムな行動選択にならないようにすべき
その点は、Q学習でもSARSA学習でも適格度トレースでもいいけどボルツマン分布に基づくような方策にすればよい

迷路問題の詳しい設定は考慮しないが、ゴールに辿り着いたときに報酬を与えて、壁にあたると報酬を負にしたり(罰を与える)、通路を通るごとに罰を与えるようにすれば、一般的に最小ステップでゴールに到達するようになる

そもそもゴール辿り着けないのは、問題の設定がおかしいか、乱数の精度が悪いか、なんだろう

**名無しさん＠お腹いっぱい。** · 2010/07/16(金) 22:54:30

15パズルを強化学習で解きたいと質問した者です
何回も15パズルをシミュレーションして、最適解（それに近い解）を強化学習で探したいのですが
シミュレーションをしても解にたどり着かず、報酬を得ることができないので、学習を進めることができません
どのようにしたら学習ができるような環境を作ることができるかどなたか分かる人教えてください
お願いします。

**名無しさん＠お腹いっぱい。** · 2010/07/20(火) 11:52:32

>>109 の質問に答えてくれ。

**名無しさん＠お腹いっぱい。** · 2010/07/20(火) 12:01:54

>>114
反復深化や、全探索など探索処理を行えば完成状態に行き着くと思いますが
今回は、強化学習という形で、パズルの完成に行き着けるかを考えています

**名無しさん＠お腹いっぱい。** · 2010/07/20(火) 16:35:54

シミュレーションでの探索は全解を探索してる？
乱数だと、全解を探索するのにかかる時間が（同じ探索を枝切りしないと）えらくかかるよ。

**名無しさん＠お腹いっぱい。** · 2010/07/20(火) 20:44:12

>>116
なるほど、初めは盲目的に全探索（それに近いこと）をして強化学習をするのですね
ありがとうございます、ちょっとやってみます

**名無しさん＠お腹いっぱい。** · 2010/07/21(水) 16:51:38

いやそういうことを言いたいのではなくて。

系統的に全数を探索すれば、n個の選択肢はn回の探索で探索し終わるけど、
単純にランダムで探索してたら、n個の選択肢を全て探索するのにかなりの回数が
かかる、ということ。

**名無しさん＠お腹いっぱい。** · 2010/07/23(金) 11:24:40

単に1回やったルートを除外すればいいだけなのでは？

**名無しさん＠お腹いっぱい。** · 2010/07/23(金) 11:26:39

あ、116に書いてあったわ。ごめん

**名無しさん＠お腹いっぱい。** · 2010/07/24(土) 02:35:11

15パズルなら最適解じゃなくていいなら簡単に解けるのだから
まず確実にゆっくり解く関数を作る。
予め上限を決めておいて、それを超える数まで探索したら
その関数を呼んで総手数を評価値として戻す。