基礎

$P(X=x, Y=y)$: 結合確率=同時確率
$P(X=x | Y=y)$: 条件付き確率
$P(x) = \sum_y P(x,y)$: $x$の周辺確率
ベイズの定理
- $P(y|x) = \frac{P(y) p(x|y)}{ P(x)} $
- 恒等式
- $P(y|x)$の計算は難しいが$p(x|y)$の計算が簡単なときに使う
尤度: データの生成確率
- 確率変数$X$のサンプルデータ$D={x_1, x_2, \cdots, x_N}$の生成確率（尤度）: $P(D) = \prod_{x_i \in D} p(x_i)$
- 対数をとった対数尤度をよく使う: $\log P(D) = \sum_{x_i \in D} \log p(x_i) $
- $\log P(D) = \sum_x \left( freq(x,D) \log p(x) \right) $

離散確率分布

ベルヌーイ分布
二項分布
多項分布
ポアソン分布

連続確率分布

正規分布（ガウス分布）
ディリクレ分布
- 多項分布のパラメータの確率分布として使うことが多い（極端なパラメータ値になりぬくいことを仮定している）

パラメータ推定

最尤推定 (maximum likelihood estimation)

対数尤度が最も高くなるようにパラメータを決定する方法
できる限りデータにフィットさせる

MAP推定 (maximum a posteriori estimation)

事後確率$p(\theta|D)$が最大になるようにパラメータを決定する方法
事前分布にある種の仮定をおき，観測データにひきずられすぎないようにする
パラメータ$\theta$の確率分布$P(\theta)$（事前確率分布）がわかっているとき，$p(\theta|D)$を事後確率という