基礎
- $P(X=x, Y=y)$: 結合確率=同時確率
- $P(X=x | Y=y)$: 条件付き確率
- $P(x) = \sum_y P(x,y)$: $x$の周辺確率
- ベイズの定理
- $P(y|x) = \frac{P(y) p(x|y)}{ P(x)} $
- 恒等式
- $P(y|x)$の計算は難しいが$p(x|y)$の計算が簡単なときに使う
- 尤度: データの生成確率
- 確率変数$X$のサンプルデータ$D={x_1, x_2, \cdots, x_N}$の生成確率(尤度): $P(D) = \prod_{x_i \in D} p(x_i)$
- 対数をとった対数尤度をよく使う: $\log P(D) = \sum_{x_i \in D} \log p(x_i) $
- $\log P(D) = \sum_x \left( freq(x,D) \log p(x) \right) $
離散確率分布
連続確率分布
- 正規分布(ガウス分布)
- ディリクレ分布
- 多項分布のパラメータの確率分布として使うことが多い(極端なパラメータ値になりぬくいことを仮定している)
パラメータ推定
最尤推定 (maximum likelihood estimation)
- 対数尤度が最も高くなるようにパラメータを決定する方法
- できる限りデータにフィットさせる
MAP推定 (maximum a posteriori estimation)
- 事後確率$p(\theta|D)$が最大になるようにパラメータを決定する方法
- 事前分布にある種の仮定をおき,観測データにひきずられすぎないようにする
- パラメータ$\theta$の確率分布$P(\theta)$(事前確率分布)がわかっているとき,$p(\theta|D)$を事後確率という