PA

  • Passive aggressiveは,ヒンジ損失が0となるようなパラメータの中で,今のパラメータに一番ユークリッド距離が近いパラメータを探して,更新する
    • 今のデータを十分なマージンで正しく分類できるように
      • 今のパラメータで正しく分類できていたとしても自信がないときは更新する
      • 間違って分類しているときは,間違い具合に応じて更新幅を調整する.また更新幅は入力のノルムで正規化されている
    • また,これまでのパラメータを尊重するように
  • つまり,PAは次の最適化問題を逐次的に解く
    • $ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2$
    • subject to $l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) =0$

導出

  • $l_{hinge} \geq 0$であり,場合分けして考える
  • $l_{hinge} = 0$のとき
    • $\bold{w}^{(t)}$が最適値(更新しない)
  • $l_{hinge} > 0$のとき
    • ラグランジュの未定乗数法を使い,制約を式の中に埋め込む
    • $ L(\bold{w}, \tau) = \left( \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 \right) + \tau \left( 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)} \right)$ $(\tau \geq 0)$
    • KKT条件を満たすので,最適値は
      • まず$\frac{\partial L(\bold{w}, \tau) }{\partial \bold{w}} = 0$を解いて,
        • $\bold{w} = \bold{w}^{(t)} + \tau y^{(t)} \bold{x}^{(t)}$
      • 代入して$L(\tau) = - \frac{1}{2} \tau^2 ||\bold{x}^{(t)} ||^2 + \tau (1- y^{(t)} \bold{w} \cdot \bold{x}^{(t)})$
      • $ \frac{\partial L(\tau)}{\partial \tau} = 0$を解いて,
        • $\tau = \frac{1- y^{(t)} \bold{w} \cdot \bold{x}^{(t)}}{ || \bold{x}^{(t)} ||^2 }$
    • よって,
      • $\bold{w}^{(t+1)} = \bold{w}^{(t)} + \frac{1- y^{(t)} \bold{w} \cdot \bold{x}^{(t)}}{ || \bold{x}^{(t)} ||^2 } y^{(t)} \bold{x}^{(t)} = \bold{w}^{(t)} + \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 } y^{(t)} \bold{x}^{(t)} $

PA-I, PA-II

  • ノイズや線形分離不可能な場合のため,ある程度の誤りは許容するように変更
    • スラック変数$\xi$,と,アグレッシブさを表す定数$C$を導入する
  • PA-I
    • $ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 + C \xi$
    • subject to $l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) \leq \xi, \xi \geq 0$
  • PA-II
    • $ \bold{w}^{(t+1)} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} - \bold{w}^{(t)} ||^2 + C \xi^2$
    • subject to $l_{hinge} = \max(0, 1 - y^{(t)} \bold{w} \cdot \bold{x}^{(t)}) \leq \xi^2$
  • これを解くと更新式はそれぞれ次のようになる
    • PA-I
      • $\bold{w}^{(t+1)} = \bold{w}^{(t)} + \min \left( C, \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 } \right) y^{(t)} \bold{x}^{(t)} $
    • PA-II
      • $\bold{w}^{(t+1)} = \bold{w}^{(t)} + \frac{ l_{hinge}}{ || \bold{x}^{(t)} ||^2 + \frac{1}{2C} }y^{(t)} \bold{x}^{(t)} $