強化学習
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
2006/08/24(木) 18:55:33ID:D7h3TICi0入門書:
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
A Bradford Book
The MIT Press
Cambridge, Massachusetts
London, England
ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/the-book.html
0002名無しさん@お腹いっぱい。
2006/08/24(木) 19:15:12ID:D7h3TICi0ttp://citeseer.ifi.unizh.ch/cichosz95fast.html
適格度トレースの計算量を減らすもののようなのですが,
論文を読みましたが何をどう操作するのか理解できず実装できません.
詳しい方がいましたら解説をお願いします.
0003名無しさん@お腹いっぱい。
2006/08/26(土) 04:48:59ID:uabL9ug000004名無しさん@お腹いっぱい。
2006/08/26(土) 15:03:13ID:jF6pHzBq0下手な宣伝打てば板ごと消されかねないし,まったりチラシの裏として
使っていくしか.
で,教科書thx.おもろい論文もキボン
0005名無しさん@お腹いっぱい。
2006/08/28(月) 01:44:27ID:bPH3hnny0Multiagent Systems: A survey from a machine learning perspective.
Autonomous Robots, 8(3):345?, July 2000.
ttp://www.cs.utexas.edu/~pstone/Papers/bib2html-links/MASsurvey.pdf
強化学習にもデータマイニングみたいな面白い応用があればいいのだけれど,
まだ理論的な研究の段階なのか私の寡聞に過ぎないのか,工学的な応用事例が
見付けられません.
0006名無しさん@お腹いっぱい。
2006/09/03(日) 22:59:49ID:RmRwZ+t40どうせ過疎なんだから機械学習全般でスレッド立てたら良かったのに…….
00071
2006/09/04(月) 02:17:04ID:2CCqCT5l0機械学習で作るか強化学習で作るか迷ったのですが,すでにGAや
ニューラルネットの単独スレがあったので.
もう少し育つようなら下のようなリンクをテンプレに持つスレを立てようかと思ってましたが,
どうやら計画倒れのようです.
■□■ 機械学習全般 ■□■
【ニューラルネットワーク】
■ニューラルネットワークについて@シミュレート板
ttp://science4.2ch.net/test/read.cgi/sim/1015733653/
【遺伝的アルゴリズム】
■遺伝的アルゴリズムを学ぼう@シミュレート板
ttp://science4.2ch.net/test/read.cgi/sim/1017102268/
■遺伝アルゴリズム使ってますか?@シミュレート板
ttp://science4.2ch.net/test/read.cgi/sim/960616675/
【強化学習】
■強化学習@情報学板
ttp://science4.2ch.net/test/read.cgi/informatics/1156413333/
【進化型計算】
■進化型計算@情報学板
ttp://science4.2ch.net/test/read.cgi/informatics/1157274058/
0008名無しさん@お腹いっぱい。
2006/09/05(火) 23:02:51ID:3rDcoTAo00009名無しさん@お腹いっぱい。
2006/09/17(日) 00:42:09ID:75+7piY90正直ロボットに対するいわゆるナビゲーションタスク的なものばかりな
気がしているんですが、どう思われますか?
0010名無しさん@お腹いっぱい。
2006/09/17(日) 01:03:49ID:Mih5c51q0AsynchronousなDPなんだから,DPの応用分野で
厳密解を要求されないようなものであれば使えるはず.
0011名無しさん@お腹いっぱい。
2006/09/17(日) 01:11:37ID:75+7piY90確かに、まぁ強化学習はモンテカルロ法とDPの間のようなもんでしょうから
代用品としてはそれなりに使えるとは思います。
気になったのは強化学習という手法の特色が生きるような使い方があるのか
というなって感じです。
0012名無しさん@お腹いっぱい。
2006/09/17(日) 01:13:23ID:75+7piY90○というような感じです
0013名無しさん@お腹いっぱい。
2006/09/17(日) 01:34:00ID:Mih5c51q0強化学習で解かせると最適解ではないがそこそこの解を実用的な時間で
返してくれるかも知れない.
問題なのは強化学習で得られた解がそこそこなのかどうなのか判断できない事ですね.
0014名無しさん@お腹いっぱい。
2006/09/17(日) 01:45:47ID:75+7piY90自分もまぁ強化学習使って研究してる(修士)んですが、どうも実用的に
使えるのかどうかを判断できないところはあります
そもそも強化学習の扱う不完全な強化(教師)信号から学習するような
問題、言い換えれば、性能向上のためにパフォーマンスを下げるかもしれ
ない探索行動が認められるような問題、が実際的に許容されるのかという
点が頭を悩ませます
ほんと、企業に売り込める強化学習搭載の製品がおもいつかんのですわ。
以上長文失礼。
0015名無しさん@お腹いっぱい。
2006/09/17(日) 02:10:24ID:Mih5c51q0greedy方策で運用するという方法でいいのでは?
ところで強化学習の実装するのに何を使ってますか?C言語とかJavaとかでいくつか
ライブラリありますが,どれもしっくりこなくて結局自分で書いたのを使ってるんです.
0016名無しさん@お腹いっぱい。
2006/09/17(日) 02:30:07ID:75+7piY90(不完全な教師)は設定できるような問題(例えば2足歩行?)
なんかをベースに考えるってのは手なんですけどね。
で、ライブラリですか?
まぁあんまり言うとバレそうなんですが、アルゴリズム自体
の改良を研究のメインとしてますんで、モロ自分で書いてます。
今のところ、Q学習、SARSA、モデルベースな手法、適格度トレ
ースあたりは資産として出来上がってますね。
ただ、階層化の作り方がわからず手をこまねいてるとこです。
0017名無しさん@お腹いっぱい。
2006/09/17(日) 03:01:35ID:eLIuH7p30まず韓国人男性は紳士的な振る舞いをします。
そして女性を大切に扱います そして情熱的です。
このような韓国人男性の振る舞いに日本人女性はコロリと落ちるのです。
日本人のような幼児的な男性にあきあきしてる裏返しの行動でしょう。
韓国人男性に憧れる日本女性は週末になるとソウルを訪れるそうです。
ソウルで運命的な出会いを期待しての訪韓です
ソウルでは毎週末にお見合いパーテーが開かれています
日本女性と韓国男性のお見合いパーテーです
日本女性の参加者が圧倒的に多く韓国男性を集めるのに苦労するそうです。
日本女性は婚前交渉に積極的だと聞きました。 韓国では婚前交渉はタブーです。
お見合いパーテーで知り合い、その日のうちに関係を持つカップルが多いと聞きます。
「日本人女性は優秀な遺伝子を求めて韓国で股を開く」と韓国のWEBサイトで話題になっていました。
韓国では不道徳なものは、東から来ると言われています。
韓国は日本から多くの不道徳を持ち込まれています。
すべて事実だ。 日本の女は淫乱で男はまったく魅力がないインポ。
かわいそうな劣等民族
0018名無しさん@お腹いっぱい。
2006/09/17(日) 03:04:24ID:Mih5c51q00019名無しさん@お腹いっぱい。
2006/09/19(火) 01:39:11ID:JYv2gyWL0ttp://neuromancer.eecs.umich.edu/cgi-bin/twiki/view/Main/AlgorithmsOfRL
0020名無しさん@お腹いっぱい。
2006/09/30(土) 11:53:05ID:+sC949d+0なんとなく、
卒研でつくったシミュレータのスクリーンショットを晒してみる。
Actor-CriticなNNです。
ほんとはDynaも入れたかったんだけど、時間切れで就職してそれっきり。。
0021名無しさん@お腹いっぱい。
2006/10/20(金) 21:11:14ID:bUWJiCbX0http://www.cs.ubc.ca/~murphyk/Bayes/bnsoft.html
で比較されてるみたいですが
産総研の人が作ったのがリストにはいってなかったり
情報が間違ってるみたいな部分もあったりで、いまいち信用できません。
0022名無しさん@お腹いっぱい。
2006/10/21(土) 17:45:51ID:1POHbHOI0おー。
GUIが頭よさそう。3D表示とか。
0023名無しさん@お腹いっぱい。
2006/10/29(日) 11:31:41ID:mNC+X81y0「あいつ死んで、せいせいした」 いじめ集団、
自殺生徒の通夜で笑いながら何度も棺をのぞきこむ
<加害生徒の名前リスト>
亀井義明←主犯
佐藤和彦←No.2、虐め指示、同級生への口封じ役確定
元木 一也←確定
綱島 明←確定
江藤 龍平←確定
ソース元は同級生
名前の確認は非常に近い関係者だ
合言葉は「だってめんどうなんだもーん」byスネーク
コピペよろしく
0024名無しさん@お腹いっぱい。
2006/10/31(火) 23:11:00ID:KyK8T7Jy0プログラムに強化学習のアルゴリズムを実装すると、「使用者の意図しな
い振る舞い」をさせることになるのだが。
で、そこんとこどうすんのよと。
0025名無しさん@お腹いっぱい。
2006/10/31(火) 23:30:32ID:v1bnAW3q0つまりそれは良い応用ではないということですね
002624
2006/10/31(火) 23:48:38ID:v1bnAW3q0まじめにレスすると,
「使用者の意図しない振る舞い」があらかじめわかるということは学習対象についての知識が
すでにあるということですね.
強化学習は学習対象に関する事前知識が全くなくても適用可能な学習の枠組みになっていますが,
事前知識が得られる場合には,ルールベースで意図しない振る舞いを抑制するなりすればいいでしょう.
理論ではなく応用なのですから,その辺は臨機応変にやればいいと思いますよ.
0027名無しさん@お腹いっぱい。
2006/11/01(水) 00:45:42ID:6wdIKEFBO応用としてゲームなんかはどうかな。
結果が確率的で変化に富むという点で、
アミューズメント系には向いてるかと。
実際、一生懸命練習(勉強)してる様子を見てると、
それが自分で作ったプログラムだって事以上に楽しかった記憶が。
002925
2006/11/01(水) 03:48:57ID:OdbXJlhp0ゲームへの応用は古くはバックギャモンとかでやられてるから,
もう少し役に立つ(工学的な)応用例が欲しいところですねぇ.
>>24はロボット制御とかを想定してるんじゃないでしょうか?
2足歩行とかをやみくもに学習させようとすると,アクチュエータを破壊する
行動を取る可能性もあるから,そういう行動をどうやって抑制するのかと.
まあ,まったく的外れかも知れませんが.
0030名無しさん@お腹いっぱい。
2006/11/01(水) 12:27:23ID:6wdIKEFBO個人的には役に立たない学問があってもいいと思うけど、それは別として。
やはり、全部をオンラインで学習させるのは厳しいですかね。
003125
2006/11/01(水) 15:33:43ID:PUrVWjF30>やはり、全部をオンラインで学習させるのは厳しいですかね。
というより強化学習はオフラインでは学習できないものに使うべきものだと思います.
0032名無しさん@お腹いっぱい。
2006/11/17(金) 14:23:05ID:O9z3YGYl0つまり、現実世界ではありえない動きを作成する手段として作れないか、ということ。
ただこれはCGとかの場合だったので、実際の制御に使用するとなると「人間が意図して欲しい動作」が生まれてくるから、
あまり参考にはならないかもしれない。
意図していない学習を許容できる、工学的な応用例っていうのは難しそうですね。
役に立つ≒無駄な動作を省くって意味では、意図していない動作は許容しにくいし。
0033自律増殖するオブジェクト
2006/11/22(水) 01:31:05ID:Iu/DjeFw0PDS(パーソナル・デスクトップ・セクレタリ)とかなんとか。
ユーザーがPCのブラウザからググるのに使用した用語をPDSは学習。
で、PDSはユーザーがPCを使っていない時間やCPU資源が空いてる時間
にさらにググりまくって、要約集みたいなものを作成してローカルHDDに保存。
ユーザーは、PDSがせっせと作成した要約集を時々目にして、気に入った
ら「よくできました」と褒めてやる(報酬を与える)。
PDSは自分の取った行動(ググリ方と纏め方)と報酬期待値と実報酬を蓄積。
繰り返し。いつの日か、ユーザーには欠かせないデスクトップ情報収集秘書の
出来上がり。
仮にこういうのを作成したとすると、プログラムは勝手にググる訳だから、
ワームだのウィルスだのと揶揄される可能性がある。
で、どーすべきなのかと。秘書同士が連絡を取り合うとさらに大変なことに。
0034名無しさん@お腹いっぱい。
2006/11/22(水) 01:58:15ID:bkEOh/mZP「おまえを消す方法」
0035自律増殖するオブジェクト
2006/11/22(水) 02:21:17ID:Iu/DjeFw0元の情報と似た情報をバラまいて、元の情報を隠す?
0036名無しさん@お腹いっぱい。
2006/11/25(土) 21:10:57ID:ZN7lzMHu0対話型進化的計算がそんな感じじゃね?
あっちは世代→世代だけど
0037名無しさん@お腹いっぱい。
2007/01/08(月) 12:31:01ID:nNzcu0iX00038名無しさん@お腹いっぱい。
2007/01/08(月) 13:42:16ID:pSjM8EE500039名無しさん@お腹いっぱい。
2007/01/12(金) 21:33:24ID:gThI0H6X00040名無しさん@お腹いっぱい。
2007/01/30(火) 12:49:29ID:C7VyP0+100041名無しさん@お腹いっぱい。
2007/02/04(日) 19:16:48ID:FMRiworC0「ある条件に入ったら、状態が初期値に戻る」ことがある場合は
すべてエピソード的タスクってことになるんでしょうか?
0042名無しさん@お腹いっぱい。
2007/02/13(火) 12:26:41ID:gMMLnRn/0エージェントが探索の開始状態に戻るときにバックアップが初期化される場合はエピソードタスク.
バックアップが初期化されない場合は単に開始状態に状態遷移しただけではないだろうか?
0043名無しさん@お腹いっぱい。
2007/02/13(火) 21:00:23ID:GwZs7ck7O0044名無しさん@お腹いっぱい。
2007/02/13(火) 23:36:58ID:bqP8aQjh0超遅レスになってしまって済みません。
なんかちょっと理解できたように思います。
ありがとうございました。
0045名無しさん@お腹いっぱい。
2007/02/26(月) 14:36:06ID:pO0z/SQL0ところで、機械学習のいい入門書を知っていたら教えてください。
洋書がいいです。当方元々数学屋でしたが、ちょっと興味があるので
0046名無しさん@お腹いっぱい。
2007/02/26(月) 15:09:18ID:hQfQeVRX00047名無しさん@お腹いっぱい。
2007/03/07(水) 20:09:53ID:v1ItzzEo00048名無しさん@お腹いっぱい。
2007/03/17(土) 01:05:43ID:Z2sgSYcW0NNのスレで聞いてみては?
0049名無しさん@お腹いっぱい。
2007/04/17(火) 17:29:42ID:Y6S7iWkl0要所が読める人にっとては、
誰かの手によって訳された本よりも
細かいニュアンスがつかみ易い。
0050名無しさん@お腹いっぱい。
2007/05/13(日) 03:11:03ID:/NhvQ9dh0ものっそ遅レスになるけれど最近なら
http://www.amazon.co.jp/dp/0387310738
が一押しだと思います.
0051名無しさん@お腹いっぱい。
2007/05/15(火) 15:43:46ID:HqLcDuDj00052名無しさん@お腹いっぱい。
2007/07/24(火) 18:20:36ID:fUauNqQm0ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/node64.html
のExample 6.5組んだりしてないでしょうか
Figure 6.11とどうしても合わないんですが・・・
スレ汚しすんません
0053名無しさん@お腹いっぱい。
2007/07/30(月) 19:40:50ID:tolrtxLt0グラフの横軸,縦軸の取りかたは合ってるのかな?
Figure 6.11 は横軸が通算の行動数,縦軸が通算のエピソード数になっててちょっと特殊なグラフだけど?
直線より上向きに曲がってるから,学習の進行とともにエピソードあたりのステップ数が少なくなるということ
だね。追試した訳じゃないけど,普通に学習できてればそうなるような気がする。
005452
2007/07/31(火) 19:23:46ID:GXLzaLU50ありがとうございます
軸の取り方は合っていますが、どうしてもこの形のグラフが得られないんです
α=0.1、壁方向の行動を選択可
の条件で試すと、8000ステップで38エピソードしか進まないと言う・・・・・・
HPのFAQにα=0.5の方が良いとか書いていたので、それで試してみるとエピソード数は178まで行きますが、傾きが全然よろしくない。
どうしても見本のような良い収束性が得られません
未だどこかプログラムに間違いがあるのか、それとも・・・・・・
にしてもコレに載ってる例題は、ことごとく条件が全部書いていないのでプログラムを組むのに無駄に時間がかかるなぁ・・・
005553
2007/08/01(水) 03:49:03ID:Jp9SpqlO0たしかに alpha = 0.1 では再現しないね。
alpha=0.5でやった結果はこんな感じになった。(100回の平均値)
ttp://www-2ch.net:8080/up/download/1185907018531701.SehkbE
alpha=0.1でも時間ステップを多くとれば同じようなグラフにはなるみたい。
一応学習パラメータを示しておく。
alpha=0.1, gamma=1.0, epsiron=0.1,
ステップ毎に -1 の報酬。
ただ環境の難しさ自体は風が吹いても普通のMazeと変わらないから,
あんまり気にするような問題でもないと思うよ。
0056名無しさん@お腹いっぱい。
2007/08/27(月) 01:05:48ID:4N5RB44W0*main
jikan++
if jikan \ 10 = 0 : 処理
005752
2007/10/18(木) 16:00:04ID:h/vxEKVt0超遅レスすいません。
ありがとうございます。
安心しました。
こういうのってグラフと照らし合わせるぐらいでしか自分のプログラムの妥当性が分からないんですよね・・・
0058名無しさん@お腹いっぱい。
2007/10/19(金) 02:05:40ID:YUDUvGmG0ttp://rl-competition.org/
0059名無しさん@お腹いっぱい。
2007/10/19(金) 08:38:46ID:buqBUBoy00060名無しさん@お腹いっぱい。
2008/01/01(火) 17:06:46ID:0YkB+A1S0これであってますか?
Q^{\pi}\left(s, a\right) = \sum_{s'} P^{a}_{ss'} \left[R^{a}_{ss'} + \gamma \sum_{a'} \pi\left(s', a'\right) Q^{\pi}\left(s', a'\right)\right]
↓はてなのmimetexを借りてひょうじさせるとこんな幹事。
http://d.hatena.ne.jp/cgi-bin/mimetex.cgi?Q^{\pi}\left(s,%20a\right)%20=%20\sum_{s'}%20P^{a}_{ss'}%20\left[R^{a}_{ss'}%20+%20\gamma%20\sum_{a'}%20\pi\left(s',%20a'\right)%20Q^{\pi}\left(s',%20a'\right)\right]
0061被害者一同
2008/01/09(水) 22:10:12ID:rMBcyD7Q0上記の病院発行の請求書(領収書) 六法全書
空中伝播式非接解超音波画像解析(書籍)
¥ 年賀状 ¥
謹賀新年 明けましておめでとう。所沢 よいとこ 一度はおいで
バカ玉県所沢氏 吉川病院 吉川<鶏>哲夫 様(所沢氏医師会副会長、所沢氏看護学校長)
バカ玉県 警察所沢氏署 掃溜め課
署長 禿げ頭 及び 部下の忠犬 八公 様
2005年8月より上記、バカ玉県所沢氏 吉川病院 吉川<鶏>哲夫 様の
くだらない妄想により、バカ玉県 警察所沢氏署 掃溜め課による超音波盗聴
および超音波盗撮および超音波を利用した人体への電波攻撃、人をかいした
嫌がらせ&ほのめかし行為(八公、警察の掃溜め課の天下り先、近隣住民)、
電磁波盗聴(テンペスト)、車両での暴音走行によって 「違法」に迷惑をかけられています。
今年もあいもかわらず知能のない嫌がらせを繰り返しするのでしょうが
ひとつお手柔らかにお願いします。くれぐれもあなたが行なう不正請求(こっそり加算)
にはお気をつけください。詐欺罪にあたります。なお、専門医資格のない専門外来
についても多々疑問があります。無資格専門外来医 吉川病院 吉川<鶏>哲夫 様
天網恢恢、そにして、洩らさず。
という言葉もございます。くれぐれも死後の世界での
因果応報にご注意、お気をつけ下さい。
被害者一同
0062名無しさん@お腹いっぱい。
2008/01/16(水) 18:40:48ID:OqAaXBdkOたとえばロボットなどですと、隣り合ったセンサからの入力がほぼ同じになってしまったり、
一つのセンサだけノイズが乗ったり、拾える信号が小さかったりなど、入力データに偏りが
出ることが避けられないと思います。これらを適切に処理するアルゴリズムとかはあるのでしょうか?
0063名無しさん@お腹いっぱい。
2008/01/26(土) 17:32:33ID:7739dJS60ある、だが教えない、自分で検索しろ。
0064名無しさん@お腹いっぱい。
2008/01/31(木) 20:01:00ID:cc3I7FE9O統計学の主成分解析を調べていますが、計算が魔術的すぎて実装できません!
0065名無しさん@お腹いっぱい。
2008/02/01(金) 17:23:57ID:3grAQD5e0ただの行列操作が実装できんのか?
0066FluogsEldesee
2008/02/11(月) 21:05:58ID:BXBYxp5600067名無しさん@お腹いっぱい。
2008/02/25(月) 18:25:46ID:+CQ0XD89OSVM搭載ロボに教示すればいいのか?
0068名無しさん@お腹いっぱい。
2008/02/25(月) 20:10:44ID:n4yyAEL900069Ereredice
2008/03/13(木) 09:51:49ID:8I0e1rUU00070名無しさん@お腹いっぱい。
2008/03/13(木) 12:14:19ID:vWAn3Ut60SVMを理解せず、実装しようとしている時点で意味不明だ。
インストールすれば使えるような考えかたは有料なソフトウエアだけに
しておけ。
■ このスレッドは過去ログ倉庫に格納されています