AROW

  • CWではノイズがあると過学習しやすいが,それを避けるように更新ごとに共分散を小さくしていく
  • 以下の更新則(γ\gammaは正則化項)
    • (μ(t+1,Σ(t+1))=argmaxμ,ΣDKL(N(μ,Σ)N(μ(t),Σ(t)))(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right)
      • +12γlhinge(μ,x(t),y(t))2 + \frac{1}{2 \gamma} l_{hinge}(\mu, \bold{x}^{(t)}, y^{(t)})^2
      • +12γx(t)Σ(t)x + \frac{1}{2 \gamma} \bold{x}^{(t)} \cdot \Sigma^{(t)} \bold{x}
  • CWの更新則との違い
    • 2項目で損失関数を追加
    • 3項目で学習が進むにつれて共分散を小さくするように追加