>>25
まじめにレスすると,
「使用者の意図しない振る舞い」があらかじめわかるということは学習対象についての知識が
すでにあるということですね.
強化学習は学習対象に関する事前知識が全くなくても適用可能な学習の枠組みになっていますが,
事前知識が得られる場合には,ルールベースで意図しない振る舞いを抑制するなりすればいいでしょう.
理論ではなく応用なのですから,その辺は臨機応変にやればいいと思いますよ.