基礎

  • $P(X=x, Y=y)$: 結合確率=同時確率
  • $P(X=x | Y=y)$: 条件付き確率
  • $P(x) = \sum_y P(x,y)$: $x$の周辺確率
  • ベイズの定理
    • $P(y|x) = \frac{P(y) p(x|y)}{ P(x)} $
    • 恒等式
    • $P(y|x)$の計算は難しいが$p(x|y)$の計算が簡単なときに使う
  • 尤度: データの生成確率
    • 確率変数$X$のサンプルデータ$D={x_1, x_2, \cdots, x_N}$の生成確率(尤度): $P(D) = \prod_{x_i \in D} p(x_i)$
    • 対数をとった対数尤度をよく使う: $\log P(D) = \sum_{x_i \in D} \log p(x_i) $
    • $\log P(D) = \sum_x \left( freq(x,D) \log p(x) \right) $

離散確率分布

  • ベルヌーイ分布
  • 二項分布
  • 多項分布
  • ポアソン分布

連続確率分布

  • 正規分布(ガウス分布)
  • ディリクレ分布
    • 多項分布のパラメータの確率分布として使うことが多い(極端なパラメータ値になりぬくいことを仮定している)

パラメータ推定

最尤推定 (maximum likelihood estimation)

  • 対数尤度が最も高くなるようにパラメータを決定する方法
  • できる限りデータにフィットさせる

MAP推定 (maximum a posteriori estimation)

  • 事後確率$p(\theta|D)$が最大になるようにパラメータを決定する方法
  • 事前分布にある種の仮定をおき,観測データにひきずられすぎないようにする
  • パラメータ$\theta$の確率分布$P(\theta)$(事前確率分布)がわかっているとき,$p(\theta|D)$を事後確率という