詳解 JUMAN / JUMAN++

資料

概要

  • 規則による形態素解析器
    • コスト最小法
  • 益岡・田窪文法ベース
    • 品詞体系
      • 「特殊」(句読点・記号・括弧など) を加えた
      • 接辞を「接頭辞」「接尾辞」に分けた
      • 計14種類の形態品詞を定義
    • 文法
      • 文語的表現・口語的表現・敬語表現に対応するために拡張
      • 21個の一般的な活用型
      • 7個の特殊な活用型
  • 辞書は表記ゆれ情報/意味情報を保持
    • KNPで語義曖昧性解消する

参考文献