追試してみた。
たしかに alpha = 0.1 では再現しないね。
alpha=0.5でやった結果はこんな感じになった。(100回の平均値)
ttp://www-2ch.net:8080/up/download/1185907018531701.SehkbE
alpha=0.1でも時間ステップを多くとれば同じようなグラフにはなるみたい。

一応学習パラメータを示しておく。
alpha=0.1, gamma=1.0, epsiron=0.1,
ステップ毎に -1 の報酬。

ただ環境の難しさ自体は風が吹いても普通のMazeと変わらないから,
あんまり気にするような問題でもないと思うよ。