Sampling Distribution for Sample Proportion

OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distribution Matching

Abstract: Inverse Reinforcement Learning (IRL) is attractive in scenarios where reward engineering can be tedious. However, prior IRL algorithms use on-policy transitions, which require intensive ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results

OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distribution Matching

Trending now