研究ノート 機械学習 分類 AROW AROW CWではノイズがあると過学習しやすいが,それを避けるように更新ごとに共分散を小さくしていく 以下の更新則(γ\gammaγは正則化項) (μ(t+1,Σ(t+1))=argmaxμ,ΣDKL(N(μ,Σ)∣∣N(μ(t),Σ(t)))(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right) (μ(t+1,Σ(t+1))=argmaxμ,ΣDKL(N(μ,Σ)∣∣N(μ(t),Σ(t))) +12γlhinge(μ,x(t),y(t))2+ \frac{1}{2 \gamma} l_{hinge}(\mu, \bold{x}^{(t)}, y^{(t)})^2+2γ1lhinge(μ,x(t),y(t))2 +12γx(t)⋅Σ(t)x+ \frac{1}{2 \gamma} \bold{x}^{(t)} \cdot \Sigma^{(t)} \bold{x}+2γ1x(t)⋅Σ(t)x CWの更新則との違い 2項目で損失関数を追加 3項目で学習が進むにつれて共分散を小さくするように追加