データ

以下のデータを各サイトにて公開しています.

日本語指示データ

日本語擬似レビューデータ

Pilota関連データ

ASDC (宿泊施設探索対話コーパス)

声庭

  • 利用・修正・再配布が自由でオープンな音声とアノテーションのコレクション

T5モデル

  • 日本語T5モデル
    • トークナイザをByte-fallbackありで学習しているので,「未知語」が基本的に発生しない
    • 8k版もある

Japanese Realistic Textual Entailment Corpus

京都大学格フレーム Ver 2.0

  • 述語とそれが格関係をもつ語(項)を自動的に抽出したデータセット
  • ウェブから収集した日本語100億文から自動構築
  • Link

日本語部分形態素アノテーションコーパス

NAISTテキストコーパスに対する述語語義と意味役割のアノテーションデータ

ITA Corpus Chuwa!

  • 音素バランスを考慮したパブリックドメインの日本語テキストコーパスであるITA corpusに対する単語と句のアノテーション

Stable Diffusionモデル