AROW
- CWではノイズがあると過学習しやすいが,それを避けるように更新ごとに共分散を小さくしていく
- 以下の更新則($\gamma$は正則化項)
- $(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right) $
- $ + \frac{1}{2 \gamma} l_{hinge}(\mu, \bold{x}^{(t)}, y^{(t)})^2 $
- $ + \frac{1}{2 \gamma} \bold{x}^{(t)} \cdot \Sigma^{(t)} \bold{x} $
- $(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right) $
- CWの更新則との違い
- 2項目で損失関数を追加
- 3項目で学習が進むにつれて共分散を小さくするように追加