梯度下降
约 266 字小于 1 分钟
2025-02-01
为了方便理解,这里以线性回归的损失函数为例:
J(w,b)=m1i=1∑m(yi−(wTxi+b))2
Step1 对权重向量w的梯度
对w的第j个分量wj求偏导:
∂wj∂J(w,b)=m2i=1∑m(yi−(wTxi+b))⋅(−xij)
将所有分量组累加为梯度向量:
∇wJ(w,b)=m2i=1∑m(yi−(wTxi+b))⋅(−xi)
简化后:
∇wJ(w,b)=−m2i=1∑m(yi−y^i)xi
其中y^i=wTxi+b是预测值。
Step2 对偏置项b的梯度
对b求偏导:
∂b∂J(w,b)=m2i=1∑m(yi−(wTxi+b))⋅(−1)
简化后:
∇bJ(w,b)=−m2i=1∑m(yi−y^i)
Step3 损失函数J(w,b)的梯度
∇wJ(w,b)=−m2i=1∑m(yi−y^i)xi∇bJ(w,b)=−m2i=1∑m(yi−yi^)
Step4 梯度下降更新规则
w←w−α∇wJ(w,b)b←b−α∇bJ(w,b)
其中α 是学习率。