PA

Passive aggressiveは，ヒンジ損失が0となるようなパラメータの中で，今のパラメータに一番ユークリッド距離が近いパラメータを探して，更新する
- 今のデータを十分なマージンで正しく分類できるように
  - 今のパラメータで正しく分類できていたとしても自信がないときは更新する
  - 間違って分類しているときは，間違い具合に応じて更新幅を調整する．また更新幅は入力のノルムで正規化されている
- また，これまでのパラメータを尊重するように
つまり，PAは次の最適化問題を逐次的に解く
- $ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2$
- subject to $l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) =0$

導出

ノイズや線形分離不可能な場合のため，ある程度の誤りは許容するように変更
- スラック変数$\xi$,と，アグレッシブさを表す定数$C$を導入する
PA-I
- $ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 + C \xi$
- subject to $l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) \leq \xi, \xi \geq 0$
PA-II
- $ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 + C \xi^2$
- subject to $l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) \leq \xi^2$
これを解くと更新式はそれぞれ次のようになる
- PA-I
  - $\bold{w}^{(t+1)} = \bold{w}^{(t)} + \min \left( C, \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 } \right) y^{(t)} \bold{x}^{(t)} $
- PA-II
  - $\bold{w}^{(t+1)} = \bold{w}^{(t)} + \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 + \frac{1}{2C} }y^{(t)} \bold{x}^{(t)} $