强化学习,动作定义,动作选择,确定性策略,随机性策略,价值函数,神经网络