強化学習

**名無しさん＠お腹いっぱい。** · 2006/08/24(木) 18:55:33

機械学習の一種，強化学習に関する話題．

入門書：
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
A Bradford Book

The MIT Press
Cambridge, Massachusetts
London, England
ttp://www.cs.ualberta.ca/%7Esutton/book/ebook/the-book.html

**名無しさん＠お腹いっぱい。** · 2006/08/24(木) 19:15:12

Truncated Temporal Differences を試した方いますか？

ttp://citeseer.ifi.unizh.ch/cichosz95fast.html

適格度トレースの計算量を減らすもののようなのですが，
論文を読みましたが何をどう操作するのか理解できず実装できません．
詳しい方がいましたら解説をお願いします．

**名無しさん＠お腹いっぱい。** · 2006/08/26(土) 04:48:59

強化学習は人気薄なのか．．．

**名無しさん＠お腹いっぱい。** · 2006/08/26(土) 15:03:13

というか，まだしばらくこの板は過疎り続けると思われ
下手な宣伝打てば板ごと消されかねないし，まったりチラシの裏として
使っていくしか．

で，教科書thx．おもろい論文もキボン

**名無しさん＠お腹いっぱい。** · 2006/08/28(月) 01:44:27

マルチエージェント学習に興味があるので，RoboCup Soccerで活躍されてる Stone さんの Survey を紹介します．

　Multiagent Systems: A survey from a machine learning perspective.
　Autonomous Robots, 8(3):345？, July 2000.
　ttp://www.cs.utexas.edu/~pstone/Papers/bib2html-links/MASsurvey.pdf

強化学習にもデータマイニングみたいな面白い応用があればいいのだけれど，
まだ理論的な研究の段階なのか私の寡聞に過ぎないのか，工学的な応用事例が
見付けられません．

**名無しさん＠お腹いっぱい。** · 2006/09/03(日) 22:59:49

あ～，強化学習のみのスレッドがあるのか．
どうせ過疎なんだから機械学習全般でスレッド立てたら良かったのに……．

1 · 2006/09/04(月) 02:17:04

>>6
機械学習で作るか強化学習で作るか迷ったのですが，すでにGAや
ニューラルネットの単独スレがあったので．

もう少し育つようなら下のようなリンクをテンプレに持つスレを立てようかと思ってましたが，
どうやら計画倒れのようです．

■□■　機械学習全般　■□■

【ニューラルネットワーク】
　■ニューラルネットワークについて＠シミュレート板
　　ttp://science4.2ch.net/test/read.cgi/sim/1015733653/

【遺伝的アルゴリズム】
　■遺伝的アルゴリズムを学ぼう＠シミュレート板
　　ttp://science4.2ch.net/test/read.cgi/sim/1017102268/
　■遺伝アルゴリズム使ってますか？＠シミュレート板
　　ttp://science4.2ch.net/test/read.cgi/sim/960616675/

【強化学習】
　■強化学習＠情報学板
　　ttp://science4.2ch.net/test/read.cgi/informatics/1156413333/

【進化型計算】
　■進化型計算＠情報学板
　　ttp://science4.2ch.net/test/read.cgi/informatics/1157274058/

**名無しさん＠お腹いっぱい。** · 2006/09/05(火) 23:02:51

あげ

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 00:42:09

強化学習の応用製品ってどんなのがあるんでしょうか？
正直ロボットに対するいわゆるナビゲーションタスク的なものばかりな
気がしているんですが、どう思われますか？

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 01:03:49

>>9
AsynchronousなDPなんだから，DPの応用分野で
厳密解を要求されないようなものであれば使えるはず．

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 01:11:37

>>10
確かに、まぁ強化学習はモンテカルロ法とDPの間のようなもんでしょうから
代用品としてはそれなりに使えるとは思います。
気になったのは強化学習という手法の特色が生きるような使い方があるのか
というなって感じです。

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 01:13:23

×というなって感じです
○というような感じです

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 01:34:00

例えばDPでは計算量的に解くことが無理な大規模な問題を，
強化学習で解かせると最適解ではないがそこそこの解を実用的な時間で
返してくれるかも知れない．

問題なのは強化学習で得られた解がそこそこなのかどうなのか判断できない事ですね．

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 01:45:47

そうなんすよねぇ
自分もまぁ強化学習使って研究してる（修士）んですが、どうも実用的に
使えるのかどうかを判断できないところはあります

そもそも強化学習の扱う不完全な強化（教師）信号から学習するような
問題、言い換えれば、性能向上のためにパフォーマンスを下げるかもしれ
ない探索行動が認められるような問題、が実際的に許容されるのかという
点が頭を悩ませます

ほんと、企業に売り込める強化学習搭載の製品がおもいつかんのですわ。
以上長文失礼。

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 02:10:24

学習対象が変化しないのであればDynaみたいにオフラインで学習して
greedy方策で運用するという方法でいいのでは？

ところで強化学習の実装するのに何を使ってますか？C言語とかJavaとかでいくつか
ライブラリありますが，どれもしっくりこなくて結局自分で書いたのを使ってるんです．

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 02:30:07

そうですね。確かに、完全な教師は設定しにくいが、強化信号
（不完全な教師）は設定できるような問題（例えば２足歩行？）
なんかをベースに考えるってのは手なんですけどね。

で、ライブラリですか？
まぁあんまり言うとバレそうなんですが、アルゴリズム自体
の改良を研究のメインとしてますんで、モロ自分で書いてます。
今のところ、Q学習、SARSA、モデルベースな手法、適格度トレ
ースあたりは資産として出来上がってますね。
ただ、階層化の作り方がわからず手をこまねいてるとこです。

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 03:01:35

なぜ日本人女性は韓国男性に憧れるのだろうか。
まず韓国人男性は紳士的な振る舞いをします。
そして女性を大切に扱いますそして情熱的です。
このような韓国人男性の振る舞いに日本人女性はコロリと落ちるのです。
日本人のような幼児的な男性にあきあきしてる裏返しの行動でしょう。
韓国人男性に憧れる日本女性は週末になるとソウルを訪れるそうです。
ソウルで運命的な出会いを期待しての訪韓です
ソウルでは毎週末にお見合いパーテーが開かれています
日本女性と韓国男性のお見合いパーテーです
日本女性の参加者が圧倒的に多く韓国男性を集めるのに苦労するそうです。
日本女性は婚前交渉に積極的だと聞きました。韓国では婚前交渉はタブーです。
お見合いパーテーで知り合い、その日のうちに関係を持つカップルが多いと聞きます。
「日本人女性は優秀な遺伝子を求めて韓国で股を開く」と韓国のWEBサイトで話題になっていました。
韓国では不道徳なものは、東から来ると言われています。
韓国は日本から多くの不道徳を持ち込まれています。
すべて事実だ。日本の女は淫乱で男はまったく魅力がないインポ。
かわいそうな劣等民族

**名無しさん＠お腹いっぱい。** · 2006/09/17(日) 03:04:24

やはり自作ですか．．．

**名無しさん＠お腹いっぱい。** · 2006/09/19(火) 01:39:11

代表的な強化学習アルゴリズム一覧
ttp://neuromancer.eecs.umich.edu/cgi-bin/twiki/view/Main/AlgorithmsOfRL

**名無しさん＠お腹いっぱい。** · 2006/09/30(土) 11:53:05

http://nnrl.mine.nu/ss.jpg
なんとなく、
卒研でつくったシミュレータのスクリーンショットを晒してみる。
Actor-CriticなNNです。
ほんとはDynaも入れたかったんだけど、時間切れで就職してそれっきり。。

**名無しさん＠お腹いっぱい。** · 2006/10/20(金) 21:11:14

ベイジアンネットワークのソフトウェアでお勧めなのはどれなのでしょうか？

http://www.cs.ubc.ca/~murphyk/Bayes/bnsoft.html
で比較されてるみたいですが
産総研の人が作ったのがリストにはいってなかったり
情報が間違ってるみたいな部分もあったりで、いまいち信用できません。

**名無しさん＠お腹いっぱい。** · 2006/10/21(土) 17:45:51

>20
おー。
GUIが頭よさそう。３D表示とか。

**名無しさん＠お腹いっぱい。** · 2006/10/29(日) 11:31:41

【福岡・中2自殺】
「あいつ死んで、せいせいした」いじめ集団、
自殺生徒の通夜で笑いながら何度も棺をのぞきこむ
＜加害生徒の名前リスト＞
亀井義明←主犯
佐藤和彦←No.2、虐め指示、同級生への口封じ役確定
元木　一也←確定
綱島　明←確定
江藤　龍平←確定

ソース元は同級生
名前の確認は非常に近い関係者だ

合言葉は「だってめんどうなんだもーん」byスネーク

コピペよろしく

**名無しさん＠お腹いっぱい。** · 2006/10/31(火) 23:11:00

強化学習の良い応用を思いついたとしやう。

プログラムに強化学習のアルゴリズムを実装すると、「使用者の意図しな
い振る舞い」をさせることになるのだが。

で、そこんとこどうすんのよと。

**名無しさん＠お腹いっぱい。** · 2006/10/31(火) 23:30:32

>>24
つまりそれは良い応用ではないということですね

24 · 2006/10/31(火) 23:48:38

>>25
まじめにレスすると，
「使用者の意図しない振る舞い」があらかじめわかるということは学習対象についての知識が
すでにあるということですね．
強化学習は学習対象に関する事前知識が全くなくても適用可能な学習の枠組みになっていますが，
事前知識が得られる場合には，ルールベースで意図しない振る舞いを抑制するなりすればいいでしょう．
理論ではなく応用なのですから，その辺は臨機応変にやればいいと思いますよ．

**名無しさん＠お腹いっぱい。** · 2006/11/01(水) 00:45:42

いまいちスレの流れがよめないけど、
応用としてゲームなんかはどうかな。
結果が確率的で変化に富むという点で、
アミューズメント系には向いてるかと。

実際、一生懸命練習（勉強）してる様子を見てると、
それが自分で作ったプログラムだって事以上に楽しかった記憶が。

26 · 2006/11/01(水) 00:56:46

>>27
>>26を書いたのは>>25です．
名前欄間違いました．すみません．

25 · 2006/11/01(水) 03:48:57

>>27
ゲームへの応用は古くはバックギャモンとかでやられてるから，
もう少し役に立つ（工学的な）応用例が欲しいところですねぇ．

>>24はロボット制御とかを想定してるんじゃないでしょうか？
２足歩行とかをやみくもに学習させようとすると，アクチュエータを破壊する
行動を取る可能性もあるから，そういう行動をどうやって抑制するのかと．

まあ，まったく的外れかも知れませんが．

**名無しさん＠お腹いっぱい。** · 2006/11/01(水) 12:27:23

役に立つ応用かぁ。

個人的には役に立たない学問があってもいいと思うけど、それは別として。

やはり、全部をオンラインで学習させるのは厳しいですかね。

25 · 2006/11/01(水) 15:33:43

>>30
>やはり、全部をオンラインで学習させるのは厳しいですかね。
というより強化学習はオフラインでは学習できないものに使うべきものだと思います．

**名無しさん＠お腹いっぱい。** · 2006/11/17(金) 14:23:05

前に、「意図していない学習から、面白い物を作れないか」と問われたことがある。
つまり、現実世界ではありえない動きを作成する手段として作れないか、ということ。
ただこれはCGとかの場合だったので、実際の制御に使用するとなると「人間が意図して欲しい動作」が生まれてくるから、
あまり参考にはならないかもしれない。

意図していない学習を許容できる、工学的な応用例っていうのは難しそうですね。
役に立つ≒無駄な動作を省くって意味では、意図していない動作は許容しにくいし。

**自律増殖するオブジェクト** · 2006/11/22(水) 01:31:05

強化学習の応用として、ＰＣデスクトップ情報収集秘書を考えてみる。
ＰＤＳ（パーソナル・デスクトップ・セクレタリ）とかなんとか。

ユーザーがＰＣのブラウザからｸﾞｸﾞるのに使用した用語をＰＤＳは学習。
で、ＰＤＳはユーザーがＰＣを使っていない時間やＣＰＵ資源が空いてる時間
にさらにｸﾞｸﾞりまくって、要約集みたいなものを作成してローカルＨＤＤに保存。

ユーザーは、ＰＤＳがせっせと作成した要約集を時々目にして、気に入った
ら「よくできました」と褒めてやる（報酬を与える）。

ＰＤＳは自分の取った行動（ｸﾞｸﾞリ方と纏め方）と報酬期待値と実報酬を蓄積。
繰り返し。いつの日か、ユーザーには欠かせないデスクトップ情報収集秘書の
出来上がり。

仮にこういうのを作成したとすると、プログラムは勝手にｸﾞｸﾞる訳だから、
ワームだのウィルスだのと揶揄される可能性がある。
で、どーすべきなのかと。秘書同士が連絡を取り合うとさらに大変なことに。

**名無しさん＠お腹いっぱい。** · 2006/11/22(水) 01:58:15

>>33
「おまえを消す方法」

**自律増殖するオブジェクト** · 2006/11/22(水) 02:21:17

>>34

元の情報と似た情報をﾊﾞﾗまいて、元の情報を隠す？

**名無しさん＠お腹いっぱい。** · 2006/11/25(土) 21:10:57

>>33
対話型進化的計算がそんな感じじゃね？
あっちは世代→世代だけど

**名無しさん＠お腹いっぱい。** · 2007/01/08(月) 12:31:01

おちんちんを堅くする方法を教えてください

**名無しさん＠お腹いっぱい。** · 2007/01/08(月) 13:42:16

たくさんの体験をすることにより、学習できます。

**名無しさん＠お腹いっぱい。** · 2007/01/12(金) 21:33:24

ttp://www.uploda.org/uporg651552.jpg

**名無しさん＠お腹いっぱい。** · 2007/01/30(火) 12:49:29

こんなスレがあったとは知らなんだ。

**名無しさん＠お腹いっぱい。** · 2007/02/04(日) 19:16:48

連続タスクとエピソード的タスクについて質問なんですが、
「ある条件に入ったら、状態が初期値に戻る」ことがある場合は
すべてエピソード的タスクってことになるんでしょうか?

**名無しさん＠お腹いっぱい。** · 2007/02/13(火) 12:26:41

>>41
エージェントが探索の開始状態に戻るときにバックアップが初期化される場合はエピソードタスク．
バックアップが初期化されない場合は単に開始状態に状態遷移しただけではないだろうか？

**名無しさん＠お腹いっぱい。** · 2007/02/13(火) 21:00:23

人生は非エピソードタスク…?

**名無しさん＠お腹いっぱい。** · 2007/02/13(火) 23:36:58

>>42
超遅レスになってしまって済みません。
なんかちょっと理解できたように思います。
ありがとうございました。

**名無しさん＠お腹いっぱい。** · 2007/02/26(月) 14:36:06

強化学習なんてのもあるんですね。初めて知りました。

ところで、機械学習のいい入門書を知っていたら教えてください。
洋書がいいです。当方元々数学屋でしたが、ちょっと興味があるので