GDAコーパス

  • 正式名称は「新聞記事GDAコーパス2004」
  • ベースは毎日新聞1994年の約3,000記事(約37,000文,約910,000語)
  • GDAというXMLの仕様でアノテーションされている
  • 形態素・統語構造・語義・照応と共参照の情報を付与

形態素

コーパス中には, <v ext="48;キレ;切れる;#動詞;一段;未然ナイ接続;非自立">切れ</v> のように, GDAのタグセットで表現しきれない任意の情報を記録する属性が ext属性 に付与されている.

中身は 形態素番号;カナ表記;原形;#品詞;品詞細分類1;品詞細分類2;品詞細分類3 (品詞体系はIPA品詞体系) だと思われる. 文全体は<su>で囲まれる.

品詞関係のタグ

  • 名詞・名詞句 <n> <np>
    • この<n>困難</n>を乗り切るのは<aj>困難</aj>だ
  • 動詞 (サ変動詞も含む)・助動詞・終助詞・またはそれらを主辞とする語句 <v> <vp>
  • 形容詞・形容動詞語幹・またはそれらを主辞とする語句 <aj> <ajp>
    • 「美しい」,「完全」,「静か」など。 「段階的」等の「的」も形容動詞語幹の主辞なので <aj>
  • 終助詞以外の助詞・副詞・連体詞・接続詞・およびこれらの (最大) 投射 <ad> <adp>
    • 文末にない終助詞 (「僕はね」の「ね」など)も<ad>
  • 間投詞・感動詞 (interjection)・句タグ <ij>
  • 日付 <date> <datep>
  • 時刻 <time> <timep>
  • 期間 <period> <periodp>
  • 固有名詞 <name> <namep>
    • 可能なら<persname><persnamep>などを用いる
  • 人名 <persname> <persnamep>
  • 組織の名前 <orgname> <orgnamep>
  • 地名 <placename> <placenamep>
  • 地理的な対象 (山,川,海など) の名前 <geogname> <geognamep>
  • 数値 <num> <nump>
  • 住所 <address> <addr> <addrp>
  • 参考文献への参照 <bibref>

統語構造

係り受け関係

GDAでは,原則として,依存関係は兄弟の間で成り立つ. 主辞は <n>, <v>などのpを含まない句タグで示す. GDAでは「句」を文内の語句であって主辞でないものとしている.

例えば,「太郎は慌てて逃げる男を追いかける」を 「太郎が慌てている」の意味でアノテーションするには,

<su>
  <adp><persnamep>太郎</persnamep><ad>は</ad></adp>
  <adp><v>慌て</v><ad>て</ad></adp>
  <adp><np><vp>逃げる</vp><n>男</n></np><ad>を</ad></adp>
  <v>追いかける</v>
</su>

とし, 「男が慌てている」という意味でアノテーションするには,

<su>
  <adp><persnamep>太郎</persnamep><ad>は</ad></adp>
  <adp>
    <np>
      <vp><adp><vp>慌て</vp><ad>て</ad></adp><v>逃げる</v></vp>
      <n>男</n>
    </np>
    <ad>を</ad>
  </adp>
  <v>追いかける</v>
</su>

とする.

なお,依存関係が交差しているときはid属性と関係属性を使う. 例えば,次の文で「専門学校の」が「学生」に係るようにするためには, 「学生」にid値を与えて,「専門学校」にdep属性を与えてそのid値を参照する.

<su><adp dep="S">専門学校の</adp><adp>彼は</adp><np id="S">学生</np><v>です</v>。</su>

等位構造

syn属性にcという値を与えて表現する.

<n syn="c"><n>青い車</n>か<n>赤い車</n></n>

同格

修復

関係節

主題化

<su>
  <n id="Z">象</n><ad opr="topic">は</ad>
  <adp><np arg="Z">鼻</np><ad opr="obj">が</ad></adp>
  長い
</su>

語義

「岩波国語辞典第五版における語義の識別番号が付与されている」と書かれているが, どのようにアノテーションされているか,確認できなかった.

意味ネットワーク

GDAでは「意味ネットワーク」をsem属性とopr属性で表現する

sem : 当該のエレメントの直接の子であるプレインテキストの語義の部分的記述であり,そのエレメントの自己節点の意味構造を示す. より正確には,その指示対象の意味クラス.値は1個以上の概念列.

opr : 当該のエレメントの直接の子であるプレインテキストの語義の部分的記述であり,そのエレメントの自己節点と統率節点の間の意味構造を示す.値は1個以上の概念列.

semおよびopr属性のには,関係子をとる. この値となる関係子はobj.intcmp-sbjのように合成できる.

詳しくは仕様書を参照のこと.

関係子の用法

関係子は, semおよびopr属性のとなると前述した.

<adp syn="f">
<n opr="gol">電話</n>
<n >加入</n>
<n eq="tagid00004">権</n>
<ad sme="arg">の</ad>
<nデータ</n>
<ad sem="obj">を</ad>
</adp>

しかし,ややこしいことに属性としての用法もある.

<np id="K">健</persnamep>が来た。<vp agt="K">笑っ</vp>ていた。

関係子の種類はこちらを参照.

省略

ゼロ照応

ゼロ照応 (省略) はeq以外の関係属性を用いて下のようにアノテーションする.

<np id="K">健</persnamep>が来た。<vp agt="K">笑っ</vp>ていた。
<np id="papa" arg="naomi">父親</np>が<persnamep id="naomi">奈緒美</persnamep>を訪ねた。
プレゼントを<v agt="papa" gol="naomi">渡し</v>た。

ただし,実際には文間項,外界項のみにアノテーションされているようだ.

外界照応

外界の対象は「直示指標」で表わす.

そんなの<aj exp="p2p">嫌</aj>でしょ?
<np eq="p1">僕</np>は<np eq="p1">自分</np>を天才だと思う。

「直示指標」は p0, p1, p1p, p1i, p1x, p2, p2p, nil, top, self, fwd, bwd, mcn の13個ある.

その他の省略

理系科目はひどかったが文系はまあまあだった。

という文において,「科目」が省略されている,とアノテーションするには,

理系科目はひどかったが文系<n ed=":">科目</n>はまあまあだった。

のようにアノテーションする.

照応と共参照

共参照は,照応であるか否かによらず関係属性eqによって明示する.

参考文献

Links