トップページinformatics
121コメント45KB

強化学習

■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。2006/08/24(木) 18:55:33ID:D7h3TICi0
機械学習の一種,強化学習に関する話題.

入門書:
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
A Bradford Book

The MIT Press
Cambridge, Massachusetts
London, England
ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/the-book.html
0043名無しさん@お腹いっぱい。2007/02/13(火) 21:00:23ID:GwZs7ck7O
人生は非エピソードタスク…?
0044名無しさん@お腹いっぱい。2007/02/13(火) 23:36:58ID:bqP8aQjh0
>>42
超遅レスになってしまって済みません。
なんかちょっと理解できたように思います。
ありがとうございました。
0045名無しさん@お腹いっぱい。2007/02/26(月) 14:36:06ID:pO0z/SQL0
強化学習なんてのもあるんですね。初めて知りました。

ところで、機械学習のいい入門書を知っていたら教えてください。
洋書がいいです。当方元々数学屋でしたが、ちょっと興味があるので
0046名無しさん@お腹いっぱい。2007/02/26(月) 15:09:18ID:hQfQeVRX0
なんで要所が良いんだろう。
0047名無しさん@お腹いっぱい。2007/03/07(水) 20:09:53ID:v1ItzzEo0
追加学習の入門書ってあります?
0048名無しさん@お腹いっぱい。2007/03/17(土) 01:05:43ID:Z2sgSYcW0
>>47
NNのスレで聞いてみては?
0049名無しさん@お腹いっぱい。2007/04/17(火) 17:29:42ID:Y6S7iWkl0
>>46
要所が読める人にっとては、
誰かの手によって訳された本よりも
細かいニュアンスがつかみ易い。
0050名無しさん@お腹いっぱい。2007/05/13(日) 03:11:03ID:/NhvQ9dh0
>>45
ものっそ遅レスになるけれど最近なら
http://www.amazon.co.jp/dp/0387310738
が一押しだと思います.
0051名無しさん@お腹いっぱい。2007/05/15(火) 15:43:46ID:HqLcDuDj0
うちらから見れば20代になってしまえば皆オバちゃん。だいたいスーパーなんて高校生がやるバイトじゃん!20越えたオバちゃんが遊びたい年頃って言ってんのがバカだと思うwそんなの高校までっしょ。
0052名無しさん@お腹いっぱい。2007/07/24(火) 18:20:36ID:fUauNqQm0
どなたか
ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/node64.html
のExample 6.5組んだりしてないでしょうか
Figure 6.11とどうしても合わないんですが・・・

スレ汚しすんません
0053名無しさん@お腹いっぱい。2007/07/30(月) 19:40:50ID:tolrtxLt0
>>52
グラフの横軸,縦軸の取りかたは合ってるのかな?
Figure 6.11 は横軸が通算の行動数,縦軸が通算のエピソード数になっててちょっと特殊なグラフだけど?
直線より上向きに曲がってるから,学習の進行とともにエピソードあたりのステップ数が少なくなるということ
だね。追試した訳じゃないけど,普通に学習できてればそうなるような気がする。
0054522007/07/31(火) 19:23:46ID:GXLzaLU50
>>53
ありがとうございます
軸の取り方は合っていますが、どうしてもこの形のグラフが得られないんです
α=0.1、壁方向の行動を選択可
の条件で試すと、8000ステップで38エピソードしか進まないと言う・・・・・・

HPのFAQにα=0.5の方が良いとか書いていたので、それで試してみるとエピソード数は178まで行きますが、傾きが全然よろしくない。
どうしても見本のような良い収束性が得られません

未だどこかプログラムに間違いがあるのか、それとも・・・・・・

にしてもコレに載ってる例題は、ことごとく条件が全部書いていないのでプログラムを組むのに無駄に時間がかかるなぁ・・・
0055532007/08/01(水) 03:49:03ID:Jp9SpqlO0
追試してみた。
たしかに alpha = 0.1 では再現しないね。
alpha=0.5でやった結果はこんな感じになった。(100回の平均値)
ttp://www-2ch.net:8080/up/download/1185907018531701.SehkbE
alpha=0.1でも時間ステップを多くとれば同じようなグラフにはなるみたい。

一応学習パラメータを示しておく。
alpha=0.1, gamma=1.0, epsiron=0.1,
ステップ毎に -1 の報酬。

ただ環境の難しさ自体は風が吹いても普通のMazeと変わらないから,
あんまり気にするような問題でもないと思うよ。
0056名無しさん@お腹いっぱい。2007/08/27(月) 01:05:48ID:4N5RB44W0
jikan=0
*main
jikan++
if jikan \ 10 = 0 : 処理
0057522007/10/18(木) 16:00:04ID:h/vxEKVt0
>>55
超遅レスすいません。
ありがとうございます。
安心しました。
こういうのってグラフと照らし合わせるぐらいでしか自分のプログラムの妥当性が分からないんですよね・・・
0058名無しさん@お腹いっぱい。2007/10/19(金) 02:05:40ID:YUDUvGmG0
強化学習のコンペが行われるようです。
ttp://rl-competition.org/
0059名無しさん@お腹いっぱい。2007/10/19(金) 08:38:46ID:buqBUBoy0
おー。情報thx
0060名無しさん@お腹いっぱい。2008/01/01(火) 17:06:46ID:0YkB+A1S0
行動価値関数Q^{\pi}に対するBellman方程式って
これであってますか?

Q^{\pi}\left(s, a\right) = \sum_{s'} P^{a}_{ss'} \left[R^{a}_{ss'} + \gamma \sum_{a'} \pi\left(s', a'\right) Q^{\pi}\left(s', a'\right)\right]

↓はてなのmimetexを借りてひょうじさせるとこんな幹事。
http://d.hatena.ne.jp/cgi-bin/mimetex.cgi?Q^{\pi}\left(s,%20a\right)%20=%20\sum_{s'}%20P^{a}_{ss'}%20\left[R^{a}_{ss'}%20+%20\gamma%20\sum_{a'}%20\pi\left(s',%20a'\right)%20Q^{\pi}\left(s',%20a'\right)\right]
0061被害者一同2008/01/09(水) 22:10:12ID:rMBcyD7Q0
参考→上記の病院のhp(専門外来およびすべて)各学会専門医名簿(例 循環器→循環器学会)
上記の病院発行の請求書(領収書)    六法全書
   空中伝播式非接解超音波画像解析(書籍)

¥ 年賀状     ¥

謹賀新年  明けましておめでとう。所沢 よいとこ 一度はおいで

バカ玉県所沢氏 吉川病院 吉川<鶏>哲夫 様(所沢氏医師会副会長、所沢氏看護学校長)
バカ玉県  警察所沢氏署 掃溜め課
   署長 禿げ頭 及び 部下の忠犬 八公 様

2005年8月より上記、バカ玉県所沢氏 吉川病院 吉川<鶏>哲夫 様の
くだらない妄想により、バカ玉県 警察所沢氏署 掃溜め課による超音波盗聴
および超音波盗撮および超音波を利用した人体への電波攻撃、人をかいした
嫌がらせ&ほのめかし行為(八公、警察の掃溜め課の天下り先、近隣住民)、
電磁波盗聴(テンペスト)、車両での暴音走行によって 「違法」に迷惑をかけられています。
 今年もあいもかわらず知能のない嫌がらせを繰り返しするのでしょうが
ひとつお手柔らかにお願いします。くれぐれもあなたが行なう不正請求(こっそり加算)
にはお気をつけください。詐欺罪にあたります。なお、専門医資格のない専門外来
についても多々疑問があります。無資格専門外来医 吉川病院 吉川<鶏>哲夫 様

天網恢恢、そにして、洩らさず。

という言葉もございます。くれぐれも死後の世界での
因果応報にご注意、お気をつけ下さい。
               被害者一同
0062名無しさん@お腹いっぱい。2008/01/16(水) 18:40:48ID:OqAaXBdkO
入力データの正規化とNN構造の設計最適化までやってくれる強化学習アルゴリズムはありますか?

たとえばロボットなどですと、隣り合ったセンサからの入力がほぼ同じになってしまったり、
一つのセンサだけノイズが乗ったり、拾える信号が小さかったりなど、入力データに偏りが
出ることが避けられないと思います。これらを適切に処理するアルゴリズムとかはあるのでしょうか?
0063名無しさん@お腹いっぱい。2008/01/26(土) 17:32:33ID:7739dJS60
>>62
ある、だが教えない、自分で検索しろ。
0064名無しさん@お腹いっぱい。2008/01/31(木) 20:01:00ID:cc3I7FE9O
>>63
統計学の主成分解析を調べていますが、計算が魔術的すぎて実装できません!
0065名無しさん@お腹いっぱい。2008/02/01(金) 17:23:57ID:3grAQD5e0
>>64
ただの行列操作が実装できんのか?
0066FluogsEldesee2008/02/11(月) 21:05:58ID:BXBYxp560
Hi! What about you? anyway thanks for the post. ?<a href= http://buy-viagara.com/viagera/index.html >viagera ?order online usa</a>
0067名無しさん@お腹いっぱい。2008/02/25(月) 18:25:46ID:+CQ0XD89O
ロボの行動学習はどうやれば?
SVM搭載ロボに教示すればいいのか?
0068名無しさん@お腹いっぱい。2008/02/25(月) 20:10:44ID:n4yyAEL90
SVMがReinforcement Learning?
0069Ereredice2008/03/13(木) 09:51:49ID:8I0e1rUU0
Hello! How did I do it? Good article. Keep it up <a href= http://vaigra.infi ?nites.net/viagara/index.html >viagara pills</a>
0070名無しさん@お腹いっぱい。2008/03/13(木) 12:14:19ID:vWAn3Ut60
>>67
SVMを理解せず、実装しようとしている時点で意味不明だ。
インストールすれば使えるような考えかたは有料なソフトウエアだけに
しておけ。
0071Ereredice2008/03/14(金) 01:33:11ID:5oErwD5q0
Eh.. But I知 getting way ahead of myself. Thank you for your suggestions.<a href= http://pressure.hostingweb.us/tenormin/index.html >tenormin price</a>
0072Ereredice2008/03/14(金) 10:20:46ID:5oErwD5q0
Hmmm... Well, believe it or not, Thanks a lot!<a href= http://pressure.hostingweb.us/tenormin/index.html >tenormin discount uk</a>
0073名無しさん@お腹いっぱい。2008/03/19(水) 00:33:35ID:t3oy5mUj0
結局、厳密に設計しないとまともな学習は不可能なんだろう?
研究室の中でしか使えない玩具。
0074名無しさん@お腹いっぱい。2008/03/22(土) 00:01:25ID:ljFDuPAp0
>>73
カエレ
0075名無しさん@お腹いっぱい。2008/03/27(木) 01:30:27ID:l0xhoEAxO
0076名無しさん@お腹いっぱい。2008/05/15(木) 12:38:39ID:LMhbMfx30
PCの性能は伸びた、、、
PCの性能は伸びた、、、
PCの性能は伸びた、、、

超高性能なPCができた、しかし、ソフトウエアは進化しなかった。
原因は?
ハードウエアに頼りすぎ、
学習型人工無能ぐらい8ビットマイコン時代に存在した、その域から越えられない
笑いものw
0077名無しさん@お腹いっぱい。2008/05/15(木) 12:49:16ID:7FyS9ceR0
チェスで世界チャンピオンと対等に戦えるほどの
量の変化による質の変化が起きているということも理解できない人ですか?
0078名無しさん@お腹いっぱい。2008/05/16(金) 00:16:28ID:CEiSLydP0
>>77
人間は学習することで、対象となる現象を分析しその欠点を見出すことができる
つまり量でも全数計算に激しく至らなければ、今後コンピュータが負け続ける
方法を人間が考え出すこともありえる。人間はこんな思考錯誤から科学技術を
生んできた。何時までも量だけで勝てるなんて単細胞なお前だけ。

チェスなどのプログラムの域ではポーカーなどで行われる駆け引きの戦術が
まだまだ、機械的な動きの特徴さえ見出せれば、それに合った戦略を立て
一時的に負けても人間が勝ちつづけることも。
プログラムを作る人が、チャンピオンに勝てない時点で数戦えば
プログラムのほうが不利になるのは必然
0079名無しさん@お腹いっぱい。2008/05/23(金) 20:02:04ID:ts+jj8po0
機械学習・強化学習の研究の先にあるものが人間の知能と
同じものかはまだ分かりません。だから人工知能と呼ばれるのでしょう。

もし仮りに機械学習・強化学習により獲得される知能が人間の知能と
同一のものであることが証明されたなら、その時にはそれを"知能"と
呼んでも構わないと私は思います。

ところで、人間がある事象を学習するメカニズムははっきりと解明されている
訳ではなく、学習が出来るという事実が知られているに過ぎません。

この人間の学習のメカニズムを解明するには、もちろん人間の脳の働きを
直接的に研究する脳科学は重要ですが、機会学習のように人間の学習と
似たような結果が得られるメカニズムを構築することにより、人間の学習の
メカニズムを間接的に探究するアプローチも重要だと思います。

# ちなみにですが、試行錯誤は人間の専売特許ではありませんよ。
0080名無しさん@お腹いっぱい。2008/08/01(金) 12:42:06ID:G4TIboV20
>>79
試行錯誤 ×
思考錯誤 ○

人の行うのは思考で試行をするには仮説を考えないと(ry

0081792008/08/02(土) 15:09:20ID:MDStSq1+0
>>80
2ちゃんねる流のtypoですね、わかります。
0082名無しさん@お腹いっぱい。2008/09/07(日) 00:43:10ID:ldEp871P0
>>80
仮説なき試行では、デタラメそのものですね。
乱数で全数探索しているのと同じ。
0083名無しさん@お腹いっぱい。2008/09/18(木) 16:11:54ID:xwQ8kRMW0
>>82
どんな問題にも正しい仮説がたてられる人には機械学習は不要ですね。
0084名無しさん@お腹いっぱい。2008/09/26(金) 22:52:52ID:iZV1N/NR0
>>83
仮説を立てるには情報を正しく認知して分析し、分解したり抽象化したり
あらゆる知識との比較を行える基本能力が必須なんだが。
0085名無しさん@お腹いっぱい。2008/10/02(木) 01:06:51ID:IvfEuXRU0
>>84
古典人工知能のお話ですか?
0086関東2008/10/26(日) 20:18:36ID:B2YhBmhD0
パソコンに詳しい方いますか?
0087名無しさん@お腹いっぱい。2008/10/27(月) 00:30:54ID:0ElbAHc00
呼んだ?
0088名無しさん@お腹いっぱい。2008/11/06(木) 15:17:05ID:PUt18dAf0
>>83
アジア訛りで充分だろ
東洋人丸出しの顔で白人気取りに見えんのも逆に痛いし
0089名無しさん@お腹いっぱい。2008/12/07(日) 11:40:21ID:4qJjBJ0b0
>>85
高次に抽象化させることは古典的技術でもできないんだが。無知?
0090名無しさん@お腹いっぱい。2008/12/15(月) 04:09:54ID:D+lg1MQj0
2ヶ月前のレスに煽り入れるなよ。
0091名無しさん@お腹いっぱい。2008/12/18(木) 20:57:11ID:6RlXiQJ10
一週間以上前のレスじゃ、50歩100歩だろ。
0092名無しさん@お腹いっぱい。2009/03/24(火) 02:02:00ID:8LeITNhR0
このスレの流れなら2ヶ月なんて一瞬だろ。
つまり90みたいな馬鹿に触るのは(ry
0093名無しさん@お腹いっぱい。2009/04/23(木) 13:41:35ID:/Eam1OHo0
1つ発言が進むのに(ry
0094名無しさん@お腹いっぱい。2009/04/29(水) 01:45:29ID:CPsasRlk0
>>90
2ヶ月前の本人だということを自分で説明しているのは楽しいのか?
0095名無しさん@お腹いっぱい。2009/05/18(月) 10:59:37ID:zi9xhkMa0
4ヶ月前のレスに煽り入れるなよ。
0096名無しさん@お腹いっぱい。2009/08/01(土) 03:19:44ID:rvIV1XQr0
1ヶ月前のレスに煽り入れるなよ。
0097名無しさん@お腹いっぱい。2009/08/01(土) 04:45:33ID:kQ0UcPPv0
2ヶ月前のレスに煽り入れるなよ。
0098名無しさん@お腹いっぱい。2009/09/03(木) 18:49:22ID:d6ESXi4f0
age
0099名無しさん@お腹いっぱい。2009/11/01(日) 18:41:49ID:xIEI74xWO
>>98のIDがSEXageに見えた。惜しいな。
つか下げろよw
0100名無しさん@お腹いっぱい。2009/12/14(月) 10:54:07ID:EWcxg1Yw0
2ヶ月前のレスに煽り入れるなよ。
0101名無しさん@お腹いっぱい。2010/05/26(水) 16:04:01ID:JpFYq/XMP
強化学習で15パズルは解けますか?
0102名無しさん@お腹いっぱい。2010/05/26(水) 18:48:56ID:4+CYHZD60
最適解を求めるには反復深化しかないと思うけど
0103名無しさん@お腹いっぱい。2010/05/26(水) 19:37:38ID:JpFYq/XMP
最適じゃなくてもいいです
完成すれば
0104名無しさん@お腹いっぱい。2010/05/27(木) 20:47:32ID:5vepkhmC0
解くだけなら人工知能的な手法使わんでも、正解に近そうな局面を探索し続けてやれば解ける。
強化学習を使った解き方はやってみたことがないのでわからん。
0105名無しさん@お腹いっぱい。2010/05/28(金) 13:22:59ID:ptFkoaqC0
つか下げろよw
0106名無しさん@お腹いっぱい。2010/05/28(金) 23:30:23ID:iiGa4ycM0
オマエモナー
01071012010/06/13(日) 16:28:25ID:vwKO4wuH0
15パズルじゃ状態数が多すぎて、盤面に対応した評価値を保存するのが難しいです
なにかよい方法はありますか?
01081072010/07/02(金) 03:03:58ID:QiGBK7yk0
現在の状態と完成状態との距離を評価値として使っているのですがループしてしまいます
ループから抜け出す方法は何かありますか?
0109名無しさん@お腹いっぱい。2010/07/04(日) 08:15:59ID:DJuiEPO10
なんでループするんだ?
「距離がより小さい状態」を反復深化で探せば、探索終了ごとに必ず完成状態に近い
状態になると思うんだけど。
0110名無しさん@お腹いっぱい。2010/07/13(火) 02:18:56ID:Auytcz1r0
強化学習と探索を組み合わせた手法は何か無いのですか?
01111102010/07/14(水) 15:18:38ID:2lkun6AN0
強化学習で迷路探索をしようと考えています
しかし、ランダムに探索を行ってもゴールまでたどり着かないので強化学習ができません
よい方法はありますか?
0112名無しさん@お腹いっぱい。2010/07/14(水) 19:07:35ID:pE25yMTs0
それは強化学習になってないでしょ
強化学習は、エージェントが環境に対してアクション起こしてそれに対する報酬を受けることで学習していくものなんだ

最初のうちはどのような行動で高い報酬が得られるか分からないからランダムでもいいけど、次第に学習していくんだからランダムな行動選択にならないようにすべき
その点は、Q学習でもSARSA学習でも適格度トレースでもいいけどボルツマン分布に基づくような方策にすればよい

迷路問題の詳しい設定は考慮しないが、ゴールに辿り着いたときに報酬を与えて、壁にあたると報酬を負にしたり(罰を与える)、通路を通るごとに罰を与えるようにすれば、一般的に最小ステップでゴールに到達するようになる

そもそもゴール辿り着けないのは、問題の設定がおかしいか、乱数の精度が悪いか、なんだろう
0113名無しさん@お腹いっぱい。2010/07/16(金) 22:54:30ID:RclIpxe90
15パズルを強化学習で解きたいと質問した者です
何回も15パズルをシミュレーションして、最適解(それに近い解)を強化学習で探したいのですが
シミュレーションをしても解にたどり着かず、報酬を得ることができないので、学習を進めることができません
どのようにしたら学習ができるような環境を作ることができるかどなたか分かる人教えてください
お願いします。
0114名無しさん@お腹いっぱい。2010/07/20(火) 11:52:32ID:jobWg5UL0
>>109 の質問に答えてくれ。
0115名無しさん@お腹いっぱい。2010/07/20(火) 12:01:54ID:e2uKDuJe0
>>114
反復深化や、全探索など探索処理を行えば完成状態に行き着くと思いますが
今回は、強化学習という形で、パズルの完成に行き着けるかを考えています
0116名無しさん@お腹いっぱい。2010/07/20(火) 16:35:54ID:jobWg5UL0
シミュレーションでの探索は全解を探索してる?
乱数だと、全解を探索するのにかかる時間が(同じ探索を枝切りしないと)えらくかかるよ。
0117名無しさん@お腹いっぱい。2010/07/20(火) 20:44:12ID:e2uKDuJe0
>>116
なるほど、初めは盲目的に全探索(それに近いこと)をして強化学習をするのですね
ありがとうございます、ちょっとやってみます
0118名無しさん@お腹いっぱい。2010/07/21(水) 16:51:38ID:UuoiHKdh0
いやそういうことを言いたいのではなくて。

系統的に全数を探索すれば、n個の選択肢はn回の探索で探索し終わるけど、
単純にランダムで探索してたら、n個の選択肢を全て探索するのにかなりの回数が
かかる、ということ。
0119名無しさん@お腹いっぱい。2010/07/23(金) 11:24:40ID:nLjKlgfR0
単に1回やったルートを除外すればいいだけなのでは?
0120名無しさん@お腹いっぱい。2010/07/23(金) 11:26:39ID:nLjKlgfR0
あ、116に書いてあったわ。ごめん
0121名無しさん@お腹いっぱい。2010/07/24(土) 02:35:11ID:69ixE9nr0
15パズルなら最適解じゃなくていいなら簡単に解けるのだから
まず確実にゆっくり解く関数を作る。
予め上限を決めておいて、それを超える数まで探索したら
その関数を呼んで総手数を評価値として戻す。
■ このスレッドは過去ログ倉庫に格納されています