CRPを用いた格フレーム構築(英語) [@Kawahara:2014:EACL]
概要
以下の3ステップで構築する
- コーパスをStanford parserで解析し,項構造を抽出する(3.1節)
- 初期フレームを作る
- CRPでクラスタリング
コーパスをStanford parserで解析し,項構造を抽出する(3.1節)
- lemmatizeする
- head wordのみ使う
- phrasal verbはnon phrasal verbと区別する(
look upとlook) - 受身を区別する
- xcompはccompに,xsubjはnsubjとして扱う
- 大文字から始まるNNPとNNPSは
<name>に汎化して扱う - 大文字から始まる
ccompは<comp>に汎化して扱う
初期フレームの構築(3.2節)
- 各項構造ごとに”predominant argument”を選ぶ
dobj,ccomp,nsubj,prep ∗,iobjの順序の中うち,最も高い順位をもつ項I sold it.ならdobjのit,It sellsならnsubjのIt
- 動詞とpredominant argumentの双方が共通している項構造ごとにグループを作る(初期フレーム)
- フレームを構成する項構造の頻度の和が10以下のフレームは捨てる
初期格フレームのイメージは以下の通り
- この初期フレームの動詞は
observe,predominant argumentはdobj:effect- 総頻度 140
- nsubj {they 30, we 20, …}
- dobj {effect 140}
- prep_at {time 20, …, …}
CRPでクラスタリング(3.3節)
-
Chinese Restaurant Process (Aldous, 1985)でクラスタリング
-
初期フレームがフレームに属する事後確率(posterior)
- 第1項が事前確率(prior),第2項がの尤度(likelihood)
-
尤度はディリクレ多項分布で定義される
-
- が新規のときは
-
Notations
- : 初期フレームの数
- : 現在に割り当てられている初期フレームの数.ただしが新規のとき
- : 新しいフレームがどのくらい作られやすいかを表すハイパーパラメータ
- : の中のの頻度
- : の中のの頻度
- : 全フレーム中の語彙の異なり総数 (注:subj:youとdobj:you等,格が異なれば違うものとして扱う)
- : ディリクレ分布のハイパーパラメータ
ギブスサンプリングの方法
- 全初期フレームにランダムにフレーム番号を与える
- 以下の「サンプリング」を各初期フレームに対して順に行う
- 着目している初期フレームが属するフレームから,を抜いて,頻度分布を計算する
- その頻度分布をもとに,が所属するフレームを求める確率分布を計算する
- その確率分布を元にの新しい所属フレームを求め,に割り当てる
- (以後の割り当てが変更されるまで,この割り当てを用いて計算する)
- 2を回(数十回)繰り返す
- 2を回(数百回)繰り返す
- 4のループ内で最も割り当てられた回数が多いフレームを,それぞれの初期フレームが真に所属するフレームとする
References
- Kawahara, et al., “Inducing Example-based Semantic Frames from a Massive Amount of Verb Uses”, EACL2014
- Aldous, D. J. (1985). “Exchangeability and related topics”
補遺
priorとlikelihoodの計算
-
各フレームごとに,のposteriorを計算し,その確率分布に従い,確率的に次の所属先を決定する
-
だが,計算を簡単にするために,を求める
-
-
-
-
計算例
- , ,
- の例: 用例数30, 項の総和50, 現在の所属初期フレーム数
- dobj 20: bread 10, sushi 10
- subj 30: I 25, you 5
- の例: 用例数20, 項の総和25
- dobj 5:sushi 5
- subj 20: I 12, you 8