基礎

用語

記号
- ${{\bold x}}$: 1つの入力データを表すベクトル
- ${{\bold w}}$: パラメータベクトル．入力と同じ次元数．
バッチ学習
オンライン学習
ノルム: ベクトルに対して定義される距離
- L1ノルム
  - $| {{\bold x}}|_1 = \sum | x_i |$
  - 下式はマンハッタン距離とよばれる(東西南北の4方向にしか動けない)
  - $| {{\bold w}} - {{\bold v}} |_1 = \sum |w_i - v_i | $
- L2ノルム（ユークリッドノルム）
  - $| {{\bold x}}|_2 = \sqrt{ \sum | x_i^2 | }$
  - 下式はユークリッド距離とよばれる
  - $| {{\bold w}} - {{\bold v}} |_2 = \sqrt{ \left( w_i - v_i \right)^2 }$
目的関数の形
- 大抵の機械学習のアルゴリズムでは，目的関数が「損失項+正則化項」という形になっている
- 損失項と正則化項の和を最少化 -> できるだけ確信度を持って間違いを少なくするという項（損失項）と，できるだけシンプルなモデルを採用するという項（正則化項）の和を最小化
損失項 (loss function, cost function)
- あるデータについて分類に失敗したとき，その失敗度合いに応じたペナルティを与える項
- 学習データ全体に対して計算したとき，総和が小さいほうが嬉しい
- L1-Loss (Hinge Loss): $\max(0, 1 - t \cdot y)$
- L2-Loss (Squared Hinge-Loss): L1損失を2乗したもの
正則化項
- モデルの複雑さを示す項
- 過学習すれば学習データに対しての損失項の総和は0にできることが多いが，未知のデータに対する分類性能（汎化性能）が低く，それは本当に欲しいものではない
- この項を考慮することで過学習を避ける
- L1正則化 (Lasso)
  - 微分不可能な点がある
- L2正則化 (Ridge)
  - リプリゼンター定理によって最適解がサンプル集合の重み付き線形和となることが保証されている
  - 全ての点で微分可能なので，微分を用いる最適化手法が使える
バイアス項 (bias)
- 線形識別器のwとxの積に常に加える固定値
- 正則化する場合，「常に1の素性を作って学習する」のと等価ではないので注意
  - バイアス項に関する重みは正則化項でのペナルティをあたえてはいけない
  - バイアス項はペナルティを気にせず思う存分データにフィットさせてあげて、その上で、マージン最大化とかをしないといけない
リプリゼンター定理
- 正則化を加えて最適化するための理論的な裏付け
線形分離可能

参考文献

SVMにおける損失と正則化
- オンライン機械学習の本のp26の記載よりも詳しい
わしの思うリッジ回帰(L2正則化)と正則化法。
- 「2次の計画行列を正則行列にする操作のため正則化法と呼ばれる」
- 最小の固有値がゼロである場合でも発散せずに逆行列を求められるようにする