AROW

CWではノイズがあると過学習しやすいが，それを避けるように更新ごとに共分散を小さくしていく
以下の更新則（$\gamma$は正則化項）
- $(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right) $
  - $ + \frac{1}{2 \gamma} l_{hinge}(\mu, \bold{x}^{(t)}, y^{(t)})^2 $
  - $ + \frac{1}{2 \gamma} \bold{x}^{(t)} \cdot \Sigma^{(t)} \bold{x} $
CWの更新則との違い
- 2項目で損失関数を追加
- 3項目で学習が進むにつれて共分散を小さくするように追加