Yuta Hayashibe

基礎

  • P(X=x,Y=y)P(X=x, Y=y): 結合確率=同時確率
  • P(X=xY=y)P(X=x | Y=y): 条件付き確率
  • P(x)=yP(x,y)P(x) = \sum_y P(x,y): xxの周辺確率
  • ベイズの定理
    • P(yx)=P(y)p(xy)P(x)P(y|x) = \frac{P(y) p(x|y)}{ P(x)}
    • 恒等式
    • P(yx)P(y|x)の計算は難しいがp(xy)p(x|y)の計算が簡単なときに使う
  • 尤度: データの生成確率
    • 確率変数XXのサンプルデータD=x1,x2,,xND={x_1, x_2, \cdots, x_N}の生成確率(尤度): P(D)=xiDp(xi)P(D) = \prod_{x_i \in D} p(x_i)
    • 対数をとった対数尤度をよく使う: logP(D)=xiDlogp(xi)\log P(D) = \sum_{x_i \in D} \log p(x_i)
    • logP(D)=x(freq(x,D)logp(x))\log P(D) = \sum_x \left( freq(x,D) \log p(x) \right)

離散確率分布

  • ベルヌーイ分布
  • 二項分布
  • 多項分布
  • ポアソン分布

連続確率分布

  • 正規分布(ガウス分布)
  • ディリクレ分布
    • 多項分布のパラメータの確率分布として使うことが多い(極端なパラメータ値になりぬくいことを仮定している)

パラメータ推定

最尤推定 (maximum likelihood estimation)

  • 対数尤度が最も高くなるようにパラメータを決定する方法
  • できる限りデータにフィットさせる

MAP推定 (maximum a posteriori estimation)

  • 事後確率p(θD)p(\theta|D)が最大になるようにパラメータを決定する方法
  • 事前分布にある種の仮定をおき,観測データにひきずられすぎないようにする
  • パラメータθ\thetaの確率分布P(θ)P(\theta)(事前確率分布)がわかっているとき,p(θD)p(\theta|D)を事後確率という