目標

そもそもどれくらいのデータ量・割合が必要？

学習データの内訳はどのようになっていますか？

日本語コーパス: 約80.1%

英語コーパス: 約8.9%

AlgebraicStack: 約10.9%

のようになっています。

日本語:英語 = 9:1 になるように設定しつつ、AlgebraicStackを入れた形になっています。

総学習Token数は約104.9B Tokenです。

Swallow-MS: Mistral日本語継続事前学習モデル

⚠️データセット調査

日本語トークナイザー調査

公開データセット

有名日本語学習モデル