ナイーブベイズ分類器

入力$X$に対して出力ラベル$Y$の確率を求めることを考える
$argmax_Y (Y|X) = argmax_Y \frac{P(Y)P(X|Y)}{P(X)} = argmax_Y P(Y)P(X|Y)$を求める
- ベイズの定理による式変形
$P(Y)$は学習データ中の比率で計算できる
$P(X|Y)$は$P(X|Y)=\prod_i^N P(f_i | Y )$と仮定する
- $X={f_1, f_2, \cdots, x_N}$となる多次元変数と仮定
- 素性$f_i$間の依存関係は無く，独立と仮定(=ナイーブ)
ゼロ頻度問題の解決法
1. スムージングして最尤推定
2. 事前分布にディリクレ分布を用いてMAP推定
モデル
- 多変数ベルヌーイモデル
- 多項モデル

Links