データセット調査・作成に関係する方が、読むべき情報を共有いただけますと幸いです。
JGLUEの構築そして 日本語LLM評価のこれから
https://speakerdeck.com/olachinkei/jgluenogou-zhu-sosite-ri-ben-yu-llmping-jia-nokorekara
Awesome-LLMs-Datasets
https://github.com/lmmlzn/Awesome-LLMs-Datasets
学習データの内訳はどのようになっていますか?
- 日本語コーパス: 約80.1%
- 英語コーパス: 約8.9%
- AlgebraicStack: 約10.9%
のようになっています。
日本語:英語 = 9:1 になるように設定しつつ、AlgebraicStackを入れた形になっています。
総学習Token数は約104.9B Tokenです。
Swallow-MS: Mistral日本語継続事前学習モデル