多クラスロジスティク回帰

導出A

導出Aではクラスごとにパラメータを用意しているが，言語処理のための機械学習入門のp.132では異なる方法で計算している．
- 素性ベクトルの概念を拡張し，「クラスと素性のペア」を素性として考えている
- 各クラスで共通の素性関数を使う場合であれば本質的には変わらないが，この方が汎用性が高い

最大エントロピー法に関する多くの説明では，クラス数$K$は固定値として説明される． A, B, Cの3つのクラスがあり$(K=3)$，与えられた事例に対してクラスA, B, Cそれぞれの確率を計算する，といったものである．その場合導出Aの考え方でも問題がない．

だが，事例ごとに選択肢が与えられ，それぞれに対して確率を計算する，といった使い方もできる．（例えば Classiasでは候補選択タスクと呼んでいる）つまり，ある事例では3つの選択肢があるが，別の事例では4つの選択肢がある，といったものである．

考え方としては，「クラスごとのパラメータ」を考えるのではなく，「事例と選択肢のペア」を考えるようにする．すなわち，導出Bの方式で考える．

$P(y|d) = \frac{1}{Z_{d, {\bold w}}} \exp \left( {\bold w}^T {\bold \phi}(d, y) \right)$
- $\phi_k (d,y)$は，事例$d$と選択肢$y$を引数にとって素性値を返す関数
- ${\bold \phi}(d, y)$は$\phi_k (d,y)$を並べた素性ベクトル
- $Z_{d, {\bold w}} = \sum_y \exp ({\bold w}^T {\bold \phi}(d, y))$

複数形を選択する問題で，原形が与えられて，選択肢に複数形の候補が何個か与えられることを考える．この時，素性関数として「原形の末尾2文字と複数形の末尾2文字の組」などが考えられる．

選択肢の数が常に固定であっても，各事例ごとのクラス名に本質的に意味がないものは候補選択タスクである．英単語の原形を4つの選択肢から当てる次のような問題集があったとする．

studiesの原形はどれか
1:studie, 2:studi, 3:study, 4:stud

この「1, 2, 3, 4」といったクラス名自体には本質的には意味がない．

1:studi, 2:studie, 3:stud, 4:study

という問題になったとしても，解くべき問題の本質は変わらないからだ．