基礎
用語
- 記号
- ${{\bold x}}$: 1つの入力データを表すベクトル
- ${{\bold w}}$: パラメータベクトル.入力と同じ次元数.
- バッチ学習
- オンライン学習
- ノルム: ベクトルに対して定義される距離
- L1ノルム
- $| {{\bold x}}|_1 = \sum | x_i |$
- 下式はマンハッタン距離とよばれる(東西南北の4方向にしか動けない)
- $| {{\bold w}} - {{\bold v}} |_1 = \sum |w_i - v_i | $
- L2ノルム(ユークリッドノルム)
- $| {{\bold x}}|_2 = \sqrt{ \sum | x_i^2 | }$
- 下式はユークリッド距離とよばれる
- $| {{\bold w}} - {{\bold v}} |_2 = \sqrt{ \left( w_i - v_i \right)^2 }$
- 目的関数の形
- 大抵の機械学習のアルゴリズムでは,目的関数が「損失項+正則化項」という形になっている
- 損失項と正則化項の和を最少化 -> できるだけ確信度を持って間違いを少なくするという項(損失項)と,できるだけシンプルなモデルを採用するという項(正則化項)の和を最小化
- 損失項 (loss function, cost function)
- あるデータについて分類に失敗したとき,その失敗度合いに応じたペナルティを与える項
- 学習データ全体に対して計算したとき,総和が小さいほうが嬉しい
- L1-Loss (Hinge Loss): $\max(0, 1 - t \cdot y)$
- L2-Loss (Squared Hinge-Loss): L1損失を2乗したもの
- 正則化項
- モデルの複雑さを示す項
- 過学習すれば学習データに対しての損失項の総和は0にできることが多いが,未知のデータに対する分類性能(汎化性能)が低く,それは本当に欲しいものではない
- この項を考慮することで過学習を避ける
- L1正則化 (Lasso)
- L2正則化 (Ridge)
- リプリゼンター定理によって最適解がサンプル集合の重み付き線形和となることが保証されている
- 全ての点で微分可能なので,微分を用いる最適化手法が使える
- バイアス項 (bias)
- リプリゼンター定理
- 線形分離可能
参考文献