EDR日本語コーパス

出典 文数
岩波情報科学辞典 13578
平凡社百科辞典 10072
日本経済新聞871108 5018
朝日新聞870410 91400
アエラ880531 49589
雑誌 21199
用例集 16946

計207,802文.

以下では, リンク先にあるsample data から そして、ムラを追放され、直ちに温知会の結成に走る。 という文の例を 引用して,構造を説明する.

構成要素情報

文の構成要素(形態素・複合語・慣用句)について, カナ表記,品詞,概念選択が記録されている.

1     そして  ソシテ  接続詞  0e84ad
2     、    、    記号  2621d7
3     ムラ  ムラ  名詞  0f2459
4     を    ヲ    助詞  2621d5
5     追放  ツイホウ    動詞  3cf185
6     さ    サ    語尾  2621cb
7     れ    レ    助動詞  2621c1
8     、    、    記号  2621d7
9     直ちに  タダチニ    副詞  3ced5f
10    温知会  オンチカイ    名詞  "=Z 温知会という組織"
11    の    ノ    助詞  2621d5
12    結成  ケッセイ    名詞  0ef56b
13    に    ニ    助詞  2621d5
14    走    ハシ  動詞  103ac8
15    る    ル    語尾  2621d0
16    。    。    記号  2621d8

品詞

名詞,動詞,形容詞,形容動詞,副詞,連体詞,接続詞,接頭語,接尾語,語尾,助詞,助動詞,感動詞,記号,数字 の15種類. 資料の表9-1に日本語単語辞書の品詞名との対応が書いてある.

概念選択

「概念識別子」・「補足付き概念説明」・「複合語形態素番号」のいずれかで記載. 詳細は資料を参照のこと.

形態素情報

/1:そして/2:、/3:ムラ/4:を/5:追放/6:さ/7:れ/8:、/9:直ちに/10:温知会/11:の/12:結成/13:に/14:走/15:る/16:。/

形態素分割した情報. 複合語の情報が後続することもある.

構文情報

(S  (t  (S  (S  (t  (W 1 "そして"))
        (W 2 "、")
      )
      (t  (M  (S  (t  (M  (S  (t  (W 3 "ムラ"))
                  (W 4 "を")
                )
                (t  (S  (t  (W 5 "追放"))
                    (W 6 "さ")
                    (W 7 "れ")
                ))
            ))
            (W 8 "、")
          )
          (t  (M  (W 9 "直ちに")
              (t  (M  (S  (t  (M  (S  (t  (W 10 "温知会"))
                          (W 11 "の")
                        )
                        (t  (W 12 "結成"))
                    ))
                    (W 13 "に")
                  )
                  (t  (S  (t  (W 14 "走"))
                      (W 15 "る")
                  ))
              ))
          ))
      ))
  ))
  (W 16 "。")
)

構文木がリストで表現されている. 交差する場合,葉を入れ替えて記述されている.

意味情報

[
    [main 14:走:103ac8]
    [attribute past]
    [agent @1:c#nil:]
    [manner 9:直ちに:3ced5f]
    [goal [
        [main 12:結成:0ef56b]
        [object 10:温知会:"=Z 温知会という組織"]
    ]]
    [sequence [
        [main 5:追放:3cf185]
        [source 3:ムラ:0f2459]
    ]]
    [and *PREVIOUS-SENTENCE]
]

文の意味を1つの「意味フレーム」で記述する. 構成要素は次の通り.

<意味フレーム> ::= [ <関係スロット>。。。 ]
<関係スロット> ::= [<関係スロット名> <要素概念>]|[<関係スロット名> <概念属性子>。。。]|[<関係スロット名> <文属性子>。。。]
<関係スロット名> ::= <概念関係子>|main|which|attribute|S-attribute
<要素概念> ::= <要素番号> : <表記> : <概念選択>|<意味フレーム>
<要素番号> ::= <構成要素番号>|<追加概念番号>
<概念選択> ::= <概念識別子>|<補足付き概念説明>|<複合語形態素番号>

概念関係子(いわゆる意味役割に相当)はagent,object,sourceなど27種類. 詳細は資料の表9-2を参照.

mainは主となる概念を示す.

動詞に対しても語義や意味フレームが与えられており, 深層格で述語項構造がアノテーションされているともみなせる. しかし,

  • 個々の動詞・語義について項構造を定義しているわけではなく, 単にコーパス中に出現した動詞についてアノテーションしているだけ
  • 語義は項構造とは関係なく定義している
  • 文内項のみが対象(文間項は非対象)

という点が問題点である.

参考文献