MDP需要一个结构来跟踪决策序列。
A solution should describe what the robot does in every state:
this is called a policy, π.
每次从初始状态开始执行一个给定的政策,环境的随机性可能导致不同的环境历史。