人类反馈强化学习,探索,利用,平衡,多臂算法,分阶段策略,仿真实验