格フレーム辞書の漸次的自動構築 [@Kawahara:2005:JNLP]

1次格フレームの構築

[@Kawahara:2002:JNLP]の類似度を以下のように修正して構築．格フレームの類似度は$WeightedCaseSim$と$Alignment$の積．

なお，[@Kawahara:2002:JNLP]における「用例パターン」を「（最初の）格フレーム」と呼んでいる点， $l, m, n$のnotationが異なる点に注意．

記号
- 格フレーム$F_1$が，格$C_{11}, \cdots, C_{1l}, \cdots, C_{1m}$
- 格フレーム$F_2$が，格$C_{21}, \cdots, C_{2l}, \cdots, C_{2n}$
- $C_{1l}, C_{2l}$まで格が一致するとする
$WeightedCaseSim (F_1, F_2) = \frac{ \sum_{i=1}^l \left( \sqrt{|C_{1i}||C_{2i}|} \cdot CaseSim(C_{1i}, C_{2i}) \right) }{\sum_{i=1}^l \sqrt{|C_{1i}||C_{2i}|} }$
- $CaseSim(C_{1i}, C_{2i}) = \frac{ \sum_{e_1 \in C_{1i} }\left( |e_1|\cdot \max \{ sim(e_1, e_2)|e_2 \in C_{2i} \} \right) + \sum_{e_2 \in C_{12} }\left( |e_2|\cdot \max \{ sim(e_1, e_2)|e_1 \in C_{1i} \} \right) }{ \sum_{e_1 \in C_{1i} }|e_1| + \sum_{e_2 \in C_{2i}} |e_2|}$
- 頻出する格の重みを強める
$Alignment (F_1, F_2) = \sqrt{ \frac{\sum_{i=1}^l |C_{1i}|} { \sum_{i=1}^m |C_{1i}|} \cdot \frac{\sum_{i=1}^l |C_{2i}|} { \sum_{i=1}^n |C_{2i}|} }$

1次格フレームを使って各用言に対して格解析を行う．

これにより，以下のことが新たに分かる

ガ2格の作成

外の関係の用例の獲得

類似している格の組に対して「交換可能」という情報を付与

不完全な格フレームの修正・削除
- データスパースネスが原因で低頻度の格フレームで，とるべき格をもたないことがある
- ガ格以外に対して，格をもつかどうかを同じ用言の別の格フレームも用いて判定
- 1用言平均3.2格フレームを削除
- ガ格に意味属性<主体>を1用言あたり平均7.8個補った
必須格の選択