Derivation on PANG Kaicheng's Homepage

Derivation on PANG Kaicheng's Homepage http://pangkaicheng.com/tags/derivation/ Recent content in Derivation on PANG Kaicheng's Homepage Hugo en-us Tue, 30 Sep 2025 00:00:00 +0000 Derivation for Action-Value Function in Off-Policy Learning http://pangkaicheng.com/blog/derivation-for-action-value-function-in-off-policy-learning/ Tue, 30 Sep 2025 00:00:00 +0000 http://pangkaicheng.com/blog/derivation-for-action-value-function-in-off-policy-learning/ Detailed derivation of the action-value function $Q(s, a)$ in off-policy learning using importance sampling, and an explanation of the backward loop implementation in Monte Carlo prediction.