強化学習
■ このスレッドは過去ログ倉庫に格納されています
005553
2007/08/01(水) 03:49:03ID:Jp9SpqlO0たしかに alpha = 0.1 では再現しないね。
alpha=0.5でやった結果はこんな感じになった。(100回の平均値)
ttp://www-2ch.net:8080/up/download/1185907018531701.SehkbE
alpha=0.1でも時間ステップを多くとれば同じようなグラフにはなるみたい。
一応学習パラメータを示しておく。
alpha=0.1, gamma=1.0, epsiron=0.1,
ステップ毎に -1 の報酬。
ただ環境の難しさ自体は風が吹いても普通のMazeと変わらないから,
あんまり気にするような問題でもないと思うよ。
■ このスレッドは過去ログ倉庫に格納されています