データセット・ソフトウェア

  • GitHubで公開しています.

データセット

ツール

  • morant
    • ブラウザでコーパスにアノテーションするためのツール
  • macomp
    • 形態素解析結果を比較するツール
    • コマンドラインやブラウザで動作します
  • cdbs
    • CDBの4GB制限を回避するために,複数のCDBファイルに分割して作成するコマンド
    • Go言語のライブラリとしても使えます
  • at2pt
    • アノテーション済みテキストからプレインテキストを抽出するコマンド

ライブラリ

コーパス前処理スクリプト

その他