EDR日本語コーパス
出典 | 文数 |
---|---|
岩波情報科学辞典 | 13578 |
平凡社百科辞典 | 10072 |
日本経済新聞871108 | 5018 |
朝日新聞870410 | 91400 |
アエラ880531 | 49589 |
雑誌 | 21199 |
用例集 | 16946 |
計207,802文.
以下では,
リンク先にあるsample data
から
そして、ムラを追放され、直ちに温知会の結成に走る。
という文の例を
引用して,構造を説明する.
構成要素情報
文の構成要素(形態素・複合語・慣用句)について, カナ表記,品詞,概念選択が記録されている.
1 そして ソシテ 接続詞 0e84ad
2 、 、 記号 2621d7
3 ムラ ムラ 名詞 0f2459
4 を ヲ 助詞 2621d5
5 追放 ツイホウ 動詞 3cf185
6 さ サ 語尾 2621cb
7 れ レ 助動詞 2621c1
8 、 、 記号 2621d7
9 直ちに タダチニ 副詞 3ced5f
10 温知会 オンチカイ 名詞 "=Z 温知会という組織"
11 の ノ 助詞 2621d5
12 結成 ケッセイ 名詞 0ef56b
13 に ニ 助詞 2621d5
14 走 ハシ 動詞 103ac8
15 る ル 語尾 2621d0
16 。 。 記号 2621d8
品詞
名詞,動詞,形容詞,形容動詞,副詞,連体詞,接続詞,接頭語,接尾語,語尾,助詞,助動詞,感動詞,記号,数字
の15種類.
資料の表9-1
に日本語単語辞書の品詞名との対応が書いてある.
概念選択
「概念識別子」・「補足付き概念説明」・「複合語形態素番号」のいずれかで記載. 詳細は資料を参照のこと.
形態素情報
/1:そして/2:、/3:ムラ/4:を/5:追放/6:さ/7:れ/8:、/9:直ちに/10:温知会/11:の/12:結成/13:に/14:走/15:る/16:。/
形態素分割した情報. 複合語の情報が後続することもある.
構文情報
(S (t (S (S (t (W 1 "そして"))
(W 2 "、")
)
(t (M (S (t (M (S (t (W 3 "ムラ"))
(W 4 "を")
)
(t (S (t (W 5 "追放"))
(W 6 "さ")
(W 7 "れ")
))
))
(W 8 "、")
)
(t (M (W 9 "直ちに")
(t (M (S (t (M (S (t (W 10 "温知会"))
(W 11 "の")
)
(t (W 12 "結成"))
))
(W 13 "に")
)
(t (S (t (W 14 "走"))
(W 15 "る")
))
))
))
))
))
(W 16 "。")
)
構文木がリストで表現されている. 交差する場合,葉を入れ替えて記述されている.
意味情報
[
[main 14:走:103ac8]
[attribute past]
[agent @1:c#nil:]
[manner 9:直ちに:3ced5f]
[goal [
[main 12:結成:0ef56b]
[object 10:温知会:"=Z 温知会という組織"]
]]
[sequence [
[main 5:追放:3cf185]
[source 3:ムラ:0f2459]
]]
[and *PREVIOUS-SENTENCE]
]
文の意味を1つの「意味フレーム」で記述する. 構成要素は次の通り.
<意味フレーム> ::= [ <関係スロット>。。。 ]
<関係スロット> ::= [<関係スロット名> <要素概念>]|[<関係スロット名> <概念属性子>。。。]|[<関係スロット名> <文属性子>。。。]
<関係スロット名> ::= <概念関係子>|main|which|attribute|S-attribute
<要素概念> ::= <要素番号> : <表記> : <概念選択>|<意味フレーム>
<要素番号> ::= <構成要素番号>|<追加概念番号>
<概念選択> ::= <概念識別子>|<補足付き概念説明>|<複合語形態素番号>
概念関係子
(いわゆる意味役割に相当)はagent
,object
,source
など27種類.
詳細は資料の表9-2を参照.
main
は主となる概念を示す.
動詞に対しても語義や意味フレームが与えられており, 深層格で述語項構造がアノテーションされているともみなせる. しかし,
- 個々の動詞・語義について項構造を定義しているわけではなく, 単にコーパス中に出現した動詞についてアノテーションしているだけ
- 語義は項構造とは関係なく定義している
- 文内項のみが対象(文間項は非対象)
という点が問題点である.