データセット調査・作成に関係する方が、読むべき情報を共有いただけますと幸いです。

JGLUEの構築そして 日本語LLM評価のこれから

https://speakerdeck.com/olachinkei/jgluenogou-zhu-sosite-ri-ben-yu-llmping-jia-nokorekara

Awesome-LLMs-Datasets

https://github.com/lmmlzn/Awesome-LLMs-Datasets

目標

ビジネス向け & コンペでの優勝のために目指すべき評価指標

河越さん方針

そもそもどれくらいのデータ量・割合が必要?

学習データの内訳はどのようになっていますか?

のようになっています。

日本語:英語 = 9:1 になるように設定しつつ、AlgebraicStackを入れた形になっています。

総学習Token数は約104.9B Tokenです。

Swallow-MS: Mistral日本語継続事前学習モデル

⚠️データセット調査

日本語トークナイザー調査

公開データセット

有名日本語学習モデル