GDAコーパス
- 正式名称は「新聞記事GDAコーパス2004」
- ベースは毎日新聞1994年の約3,000記事(約37,000文,約910,000語)
- GDAというXMLの仕様でアノテーションされている
- 形態素・統語構造・語義・照応と共参照の情報を付与
形態素
コーパス中には,
<v ext="48;キレ;切れる;#動詞;一段;未然ナイ接続;非自立">切れ</v>
のように,
GDAのタグセットで表現しきれない任意の情報を記録する属性が
ext
属性
に付与されている.
中身は
形態素番号;カナ表記;原形;#品詞;品詞細分類1;品詞細分類2;品詞細分類3
(品詞体系はIPA品詞体系)
だと思われる.
文全体は<su>
で囲まれる.
品詞関係のタグ
- 名詞・名詞句
<n> <np>
この<n>困難</n>を乗り切るのは<aj>困難</aj>だ
- 動詞 (サ変動詞も含む)・助動詞・終助詞・またはそれらを主辞とする語句
<v> <vp>
- 形容詞・形容動詞語幹・またはそれらを主辞とする語句
<aj> <ajp>
- 「美しい」,「完全」,「静か」など。 「段階的」等の「的」も形容動詞語幹の主辞なので
<aj>
- 「美しい」,「完全」,「静か」など。 「段階的」等の「的」も形容動詞語幹の主辞なので
- 終助詞以外の助詞・副詞・連体詞・接続詞・およびこれらの (最大) 投射
<ad> <adp>
- 文末にない終助詞 (「僕はね」の「ね」など)も
<ad>
- 文末にない終助詞 (「僕はね」の「ね」など)も
- 間投詞・感動詞 (interjection)・句タグ
<ij>
- 日付
<date> <datep>
- 時刻
<time> <timep>
- 期間
<period> <periodp>
- 固有名詞
<name> <namep>
- 可能なら
<persname>
や<persnamep>
などを用いる
- 可能なら
- 人名
<persname> <persnamep>
- 組織の名前
<orgname> <orgnamep>
- 地名
<placename> <placenamep>
- 地理的な対象 (山,川,海など) の名前
<geogname> <geognamep>
- 数値
<num> <nump>
- 住所
<address> <addr> <addrp>
- 参考文献への参照
<bibref>
統語構造
係り受け関係
GDAでは,原則として,依存関係は兄弟の間で成り立つ.
主辞は
<n>
, <v>
などのp
を含まない句タグで示す.
GDAでは「句」を文内の語句であって主辞でないものとしている.
例えば,「太郎は慌てて逃げる男を追いかける」を 「太郎が慌てている」の意味でアノテーションするには,
<su>
<adp><persnamep>太郎</persnamep><ad>は</ad></adp>
<adp><v>慌て</v><ad>て</ad></adp>
<adp><np><vp>逃げる</vp><n>男</n></np><ad>を</ad></adp>
<v>追いかける</v>
</su>
とし, 「男が慌てている」という意味でアノテーションするには,
<su>
<adp><persnamep>太郎</persnamep><ad>は</ad></adp>
<adp>
<np>
<vp><adp><vp>慌て</vp><ad>て</ad></adp><v>逃げる</v></vp>
<n>男</n>
</np>
<ad>を</ad>
</adp>
<v>追いかける</v>
</su>
とする.
なお,依存関係が交差しているときはid
属性と関係属性を使う.
例えば,次の文で「専門学校の」が「学生」に係るようにするためには,
「学生」にid
値を与えて,「専門学校」にdep
属性を与えてそのid
値を参照する.
<su><adp dep="S">専門学校の</adp><adp>彼は</adp><np id="S">学生</np><v>です</v>。</su>
等位構造
syn
属性にc
という値を与えて表現する.
<n syn="c"><n>青い車</n>か<n>赤い車</n></n>
同格
修復
関係節
主題化
<su>
<n id="Z">象</n><ad opr="topic">は</ad>
<adp><np arg="Z">鼻</np><ad opr="obj">が</ad></adp>
長い
</su>
語義
「岩波国語辞典第五版における語義の識別番号が付与されている」と書かれているが, どのようにアノテーションされているか,確認できなかった.
意味ネットワーク
GDAでは「意味ネットワーク」をsem
属性とopr
属性で表現する.
sem : 当該のエレメントの直接の子であるプレインテキストの語義の部分的記述であり,そのエレメントの自己節点の意味構造を示す. より正確には,その指示対象の意味クラス.値は1個以上の概念列.
opr : 当該のエレメントの直接の子であるプレインテキストの語義の部分的記述であり,そのエレメントの自己節点と統率節点の間の意味構造を示す.値は1個以上の概念列.
sem
およびopr
属性の値には,関係子をとる.
この値となる関係子はobj.int
やcmp-sbj
のように合成できる.
詳しくは仕様書を参照のこと.
関係子の用法
関係子は,
sem
およびopr
属性の値となると前述した.
<adp syn="f">
<n opr="gol">電話</n>
<n >加入</n>
<n eq="tagid00004">権</n>
<ad sme="arg">の</ad>
<nデータ</n>
<ad sem="obj">を</ad>
</adp>
しかし,ややこしいことに属性としての用法もある.
<np id="K">健</persnamep>が来た。<vp agt="K">笑っ</vp>ていた。
関係子の種類はこちらを参照.
省略
ゼロ照応
ゼロ照応 (省略) はeq
以外の関係属性を用いて下のようにアノテーションする.
<np id="K">健</persnamep>が来た。<vp agt="K">笑っ</vp>ていた。
<np id="papa" arg="naomi">父親</np>が<persnamep id="naomi">奈緒美</persnamep>を訪ねた。
プレゼントを<v agt="papa" gol="naomi">渡し</v>た。
ただし,実際には文間項,外界項のみにアノテーションされているようだ.
外界照応
外界の対象は「直示指標」で表わす.
そんなの<aj exp="p2p">嫌</aj>でしょ?
<np eq="p1">僕</np>は<np eq="p1">自分</np>を天才だと思う。
「直示指標」は
p0, p1, p1p, p1i, p1x, p2, p2p, nil, top, self, fwd, bwd, mcn
の13個ある.
その他の省略
理系科目はひどかったが文系はまあまあだった。
という文において,「科目」が省略されている,とアノテーションするには,
理系科目はひどかったが文系<n ed=":">科目</n>はまあまあだった。
のようにアノテーションする.
照応と共参照
共参照は,照応であるか否かによらず関係属性eq
によって明示する.
参考文献
- 橋田浩一ら,「大域文書修飾:標準タグによる言語データの大規模な構造化と再利用」,言語処理学会第3回年次大会,1997 (優秀発表賞受賞)
- 橋田浩一,「GDA意味的修飾に基づく多用途の知的コンテンツ」,人工知能学会誌 13(4), pp.528-535, 1998
- 橋田浩ーら,「大域文書修飾(GDA)の進渉と展望」,,言語処理学会第4回年次大会,1998
Links
- 配布元(言語資源協会)
- GDAのアノテーションマニュアル
- GDAコーパスブラウザ
-
- 同じ仕様でアノテーションされた別のコーパス
- 岩波国語辞典第五版における約5万6千項目のデータに,形態素・統語構造・照応と共参照,岩波国語辞典自身に基づく語義の情報などを付与したコーパス
- 人手修正済
- 約19.8万文,約112万形態素