AROW

  • CWではノイズがあると過学習しやすいが,それを避けるように更新ごとに共分散を小さくしていく
  • 以下の更新則($\gamma$は正則化項)
    • $(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right) $
      • $ + \frac{1}{2 \gamma} l_{hinge}(\mu, \bold{x}^{(t)}, y^{(t)})^2 $
      • $ + \frac{1}{2 \gamma} \bold{x}^{(t)} \cdot \Sigma^{(t)} \bold{x} $
  • CWの更新則との違い
    • 2項目で損失関数を追加
    • 3項目で学習が進むにつれて共分散を小さくするように追加