強化学習
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
2006/08/24(木) 18:55:33ID:D7h3TICi0入門書:
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
A Bradford Book
The MIT Press
Cambridge, Massachusetts
London, England
ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/the-book.html
0086関東
2008/10/26(日) 20:18:36ID:B2YhBmhD00087名無しさん@お腹いっぱい。
2008/10/27(月) 00:30:54ID:0ElbAHc000088名無しさん@お腹いっぱい。
2008/11/06(木) 15:17:05ID:PUt18dAf0アジア訛りで充分だろ
東洋人丸出しの顔で白人気取りに見えんのも逆に痛いし
0089名無しさん@お腹いっぱい。
2008/12/07(日) 11:40:21ID:4qJjBJ0b0高次に抽象化させることは古典的技術でもできないんだが。無知?
0090名無しさん@お腹いっぱい。
2008/12/15(月) 04:09:54ID:D+lg1MQj00091名無しさん@お腹いっぱい。
2008/12/18(木) 20:57:11ID:6RlXiQJ100092名無しさん@お腹いっぱい。
2009/03/24(火) 02:02:00ID:8LeITNhR0つまり90みたいな馬鹿に触るのは(ry
0093名無しさん@お腹いっぱい。
2009/04/23(木) 13:41:35ID:/Eam1OHo00094名無しさん@お腹いっぱい。
2009/04/29(水) 01:45:29ID:CPsasRlk02ヶ月前の本人だということを自分で説明しているのは楽しいのか?
0095名無しさん@お腹いっぱい。
2009/05/18(月) 10:59:37ID:zi9xhkMa00096名無しさん@お腹いっぱい。
2009/08/01(土) 03:19:44ID:rvIV1XQr00097名無しさん@お腹いっぱい。
2009/08/01(土) 04:45:33ID:kQ0UcPPv00098名無しさん@お腹いっぱい。
2009/09/03(木) 18:49:22ID:d6ESXi4f00099名無しさん@お腹いっぱい。
2009/11/01(日) 18:41:49ID:xIEI74xWOつか下げろよw
0100名無しさん@お腹いっぱい。
2009/12/14(月) 10:54:07ID:EWcxg1Yw00101名無しさん@お腹いっぱい。
2010/05/26(水) 16:04:01ID:JpFYq/XMP0102名無しさん@お腹いっぱい。
2010/05/26(水) 18:48:56ID:4+CYHZD600103名無しさん@お腹いっぱい。
2010/05/26(水) 19:37:38ID:JpFYq/XMP完成すれば
0104名無しさん@お腹いっぱい。
2010/05/27(木) 20:47:32ID:5vepkhmC0強化学習を使った解き方はやってみたことがないのでわからん。
0105名無しさん@お腹いっぱい。
2010/05/28(金) 13:22:59ID:ptFkoaqC00106名無しさん@お腹いっぱい。
2010/05/28(金) 23:30:23ID:iiGa4ycM00107101
2010/06/13(日) 16:28:25ID:vwKO4wuH0なにかよい方法はありますか?
0108107
2010/07/02(金) 03:03:58ID:QiGBK7yk0ループから抜け出す方法は何かありますか?
0109名無しさん@お腹いっぱい。
2010/07/04(日) 08:15:59ID:DJuiEPO10「距離がより小さい状態」を反復深化で探せば、探索終了ごとに必ず完成状態に近い
状態になると思うんだけど。
0110名無しさん@お腹いっぱい。
2010/07/13(火) 02:18:56ID:Auytcz1r00111110
2010/07/14(水) 15:18:38ID:2lkun6AN0しかし、ランダムに探索を行ってもゴールまでたどり着かないので強化学習ができません
よい方法はありますか?
0112名無しさん@お腹いっぱい。
2010/07/14(水) 19:07:35ID:pE25yMTs0強化学習は、エージェントが環境に対してアクション起こしてそれに対する報酬を受けることで学習していくものなんだ
最初のうちはどのような行動で高い報酬が得られるか分からないからランダムでもいいけど、次第に学習していくんだからランダムな行動選択にならないようにすべき
その点は、Q学習でもSARSA学習でも適格度トレースでもいいけどボルツマン分布に基づくような方策にすればよい
迷路問題の詳しい設定は考慮しないが、ゴールに辿り着いたときに報酬を与えて、壁にあたると報酬を負にしたり(罰を与える)、通路を通るごとに罰を与えるようにすれば、一般的に最小ステップでゴールに到達するようになる
そもそもゴール辿り着けないのは、問題の設定がおかしいか、乱数の精度が悪いか、なんだろう
0113名無しさん@お腹いっぱい。
2010/07/16(金) 22:54:30ID:RclIpxe90何回も15パズルをシミュレーションして、最適解(それに近い解)を強化学習で探したいのですが
シミュレーションをしても解にたどり着かず、報酬を得ることができないので、学習を進めることができません
どのようにしたら学習ができるような環境を作ることができるかどなたか分かる人教えてください
お願いします。
0114名無しさん@お腹いっぱい。
2010/07/20(火) 11:52:32ID:jobWg5UL00115名無しさん@お腹いっぱい。
2010/07/20(火) 12:01:54ID:e2uKDuJe0反復深化や、全探索など探索処理を行えば完成状態に行き着くと思いますが
今回は、強化学習という形で、パズルの完成に行き着けるかを考えています
0116名無しさん@お腹いっぱい。
2010/07/20(火) 16:35:54ID:jobWg5UL0乱数だと、全解を探索するのにかかる時間が(同じ探索を枝切りしないと)えらくかかるよ。
0117名無しさん@お腹いっぱい。
2010/07/20(火) 20:44:12ID:e2uKDuJe0なるほど、初めは盲目的に全探索(それに近いこと)をして強化学習をするのですね
ありがとうございます、ちょっとやってみます
0118名無しさん@お腹いっぱい。
2010/07/21(水) 16:51:38ID:UuoiHKdh0系統的に全数を探索すれば、n個の選択肢はn回の探索で探索し終わるけど、
単純にランダムで探索してたら、n個の選択肢を全て探索するのにかなりの回数が
かかる、ということ。
0119名無しさん@お腹いっぱい。
2010/07/23(金) 11:24:40ID:nLjKlgfR00120名無しさん@お腹いっぱい。
2010/07/23(金) 11:26:39ID:nLjKlgfR00121名無しさん@お腹いっぱい。
2010/07/24(土) 02:35:11ID:69ixE9nr0まず確実にゆっくり解く関数を作る。
予め上限を決めておいて、それを超える数まで探索したら
その関数を呼んで総手数を評価値として戻す。
■ このスレッドは過去ログ倉庫に格納されています