We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
贝尔曼方程为: V (s) = ∑(a∈A) π(a|s) ∑(s'∈S) P (s'|s,a) V(s') 按照这个方程计算状态价值函数不应该会考虑进入当前状态的奖励。 然而原文P33以下例子与以上公式矛盾,计入到达当前状态的奖励,而不是当前状态之后的奖励期望 我们再看一下策略评估的例子,探究怎么在决策过程中计算每一个状态的价值。如图 2.15 所示,假设环境里面有两种动作:往左走和往右走。现在的奖励函数应该是关于动作和状态两个变量的函数。但这里规定,不管智能体采取什么动作,只要到达状态 s1,就有 5 的奖励;只要到达状态 s7 ,就有 10 的奖励,到达其他状态没有奖励。我们可以将奖励函数表示为 R = [5, 0, 0, 0, 0, 0, 10]。假设智能体现在采取一个策略:不管在任何状态,智能体采取的动作都是往左走,即采取的是确定性策略 π(s) = 左。假设价值折扣因子 γ = 0,那么对于确定性策略,最后估算出的价值函数是一致的,即 V π = [5, 0, 0, 0, 0, 0, 10]。
The text was updated successfully, but these errors were encountered:
No branches or pull requests
贝尔曼方程为:
V (s) = ∑(a∈A) π(a|s) ∑(s'∈S) P (s'|s,a) V(s')
按照这个方程计算状态价值函数不应该会考虑进入当前状态的奖励。
然而原文P33以下例子与以上公式矛盾,计入到达当前状态的奖励,而不是当前状态之后的奖励期望
我们再看一下策略评估的例子,探究怎么在决策过程中计算每一个状态的价值。如图 2.15 所示,假设环境里面有两种动作:往左走和往右走。现在的奖励函数应该是关于动作和状态两个变量的函数。但这里规定,不管智能体采取什么动作,只要到达状态 s1,就有 5 的奖励;只要到达状态 s7 ,就有 10 的奖励,到达其他状态没有奖励。我们可以将奖励函数表示为 R = [5, 0, 0, 0, 0, 0, 10]。假设智能体现在采取一个策略:不管在任何状态,智能体采取的动作都是往左走,即采取的是确定性策略 π(s) = 左。假设价值折扣因子 γ = 0,那么对于确定性策略,最后估算出的价值函数是一致的,即 V π = [5, 0, 0, 0, 0, 0, 10]。
The text was updated successfully, but these errors were encountered: