Yuta Hayashibe
プロフィール
研究発表
データ
ソフトウェア
技術情報
MeCab
CaboCha
JUMAN
コーパス
文字コード
その他ツール
研究ノート
述語項構造解析
機械学習
音声言語処理
研究ノート
機械学習
分類
AROW
AROW
CWではノイズがあると過学習しやすいが,それを避けるように更新ごとに共分散を小さくしていく
以下の更新則(
γ
\gamma
γ
は正則化項)
(
μ
(
t
+
1
,
Σ
(
t
+
1
)
)
=
arg
max
μ
,
Σ
D
K
L
(
N
(
μ
,
Σ
)
∣
∣
N
(
μ
(
t
)
,
Σ
(
t
)
)
)
(\mu^{(t+1}, \Sigma^{(t+1)}) = \arg \max_{\mu, \Sigma} D_{KL} \left( N(\mu,\Sigma) || N(\mu^{(t)}, \Sigma^{(t)}) \right)
(
μ
(
t
+
1
,
Σ
(
t
+
1
)
)
=
ar
g
max
μ
,
Σ
D
K
L
(
N
(
μ
,
Σ
)
∣
∣
N
(
μ
(
t
)
,
Σ
(
t
)
)
)
+
1
2
γ
l
h
i
n
g
e
(
μ
,
x
(
t
)
,
y
(
t
)
)
2
+ \frac{1}{2 \gamma} l_{hinge}(\mu, \bold{x}^{(t)}, y^{(t)})^2
+
2
γ
1
l
h
i
n
g
e
(
μ
,
x
(
t
)
,
y
(
t
)
)
2
+
1
2
γ
x
(
t
)
⋅
Σ
(
t
)
x
+ \frac{1}{2 \gamma} \bold{x}^{(t)} \cdot \Sigma^{(t)} \bold{x}
+
2
γ
1
x
(
t
)
⋅
Σ
(
t
)
x
CWの更新則との違い
2項目で損失関数を追加
3項目で学習が進むにつれて共分散を小さくするように追加