Yuta Hayashibe

PA

  • Passive aggressiveは,ヒンジ損失が0となるようなパラメータの中で,今のパラメータに一番ユークリッド距離が近いパラメータを探して,更新する
    • 今のデータを十分なマージンで正しく分類できるように
      • 今のパラメータで正しく分類できていたとしても自信がないときは更新する
      • 間違って分類しているときは,間違い具合に応じて更新幅を調整する.また更新幅は入力のノルムで正規化されている
    • また,これまでのパラメータを尊重するように
  • つまり,PAは次の最適化問題を逐次的に解く
    • w(t+1)=argminw12ww(t)2 \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2
    • subject to lhinge=max(0,1y(t)wx(t))=0l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) =0

導出

  • lhinge0l_{hinge} \geq 0であり,場合分けして考える
  • lhinge=0l_{hinge} = 0のとき
    • w(t)\bold{w}^{(t)}が最適値(更新しない)
  • lhinge>0l_{hinge} > 0のとき
    • ラグランジュの未定乗数法を使い,制約を式の中に埋め込む
    • L(w,τ)=(12ww(t)2)+τ(1y(t)wx(t)) L(\bold{w}, \tau) = \left( \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 \right) + \tau \left( 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)} \right) (τ0)(\tau \geq 0)
    • KKT条件を満たすので,最適値は
      • まずL(w,τ)w=0\frac{\partial L(\bold{w}, \tau) }{\partial \bold{w}} = 0を解いて,
        • w=w(t)+τy(t)x(t)\bold{w} = \bold{w}^{(t)} + \tau y^{(t)} \bold{x}^{(t)}
      • 代入してL(τ)=12τ2x(t)2+τ(1y(t)wx(t))L(\tau) = - \frac{1}{2} \tau^2 ||\bold{x}^{(t)} ||^2 + \tau (1- y^{(t)} \bold{w} \cdot \bold{x}^{(t)})
      • L(τ)τ=0 \frac{\partial L(\tau)}{\partial \tau} = 0を解いて,
        • τ=1y(t)wx(t)x(t)2\tau = \frac{1- y^{(t)} \bold{w} \cdot \bold{x}^{(t)}}{ || \bold{x}^{(t)} ||^2 }
    • よって,
      • w(t+1)=w(t)+1y(t)wx(t)x(t)2y(t)x(t)=w(t)+lhingex(t)2y(t)x(t)\bold{w}^{(t+1)} = \bold{w}^{(t)} + \frac{1- y^{(t)} \bold{w} \cdot \bold{x}^{(t)}}{ || \bold{x}^{(t)} ||^2 } y^{(t)} \bold{x}^{(t)} = \bold{w}^{(t)} + \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 } y^{(t)} \bold{x}^{(t)}

PA-I, PA-II

  • ノイズや線形分離不可能な場合のため,ある程度の誤りは許容するように変更
    • スラック変数ξ\xi,と,アグレッシブさを表す定数CCを導入する
  • PA-I
    • w(t+1)=argminw12ww(t)2+Cξ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 + C \xi
    • subject to lhinge=max(0,1y(t)wx(t))ξ,ξ0l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) \leq \xi, \xi \geq 0
  • PA-II
    • w(t+1)=argminw12ww(t)2+Cξ2 \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 + C \xi^2
    • subject to lhinge=max(0,1y(t)wx(t))ξ2l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) \leq \xi^2
  • これを解くと更新式はそれぞれ次のようになる
    • PA-I
      • w(t+1)=w(t)+min(C,lhingex(t)2)y(t)x(t)\bold{w}^{(t+1)} = \bold{w}^{(t)} + \min \left( C, \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 } \right) y^{(t)} \bold{x}^{(t)}
    • PA-II
      • w(t+1)=w(t)+lhingex(t)2+12Cy(t)x(t)\bold{w}^{(t+1)} = \bold{w}^{(t)} + \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 + \frac{1}{2C} }y^{(t)} \bold{x}^{(t)}