主要参考文献です。
厳格なフィルタリングと重複排除を行うことで高品質なデータセットを構築
解説記事
【RefinedWeb】The Pile よりも高性能なデータセット - Qiita
日本語 LLM 構築におけるコーパスクリーニングの網羅的評価
日本語の大規模言語モデル(LLM)の事前学習用コーパスのクリーニングがモデル性能向上に有効であることを示している。
日本語 LLM の事前学習コーパスにおける日本語 に応じたクリーニングの効果を、事前学習・事後学 習の実験を通じて検証した。基本処理に加えて様々なクリーニングを適用しコーパスの質を高めることは、計算資源が限られている場合はモデルの性能を 向上させ、十分に計算資源がある場合でも性能を維持または改善させることを示した。
Common Crawlのアーカイブから日本語ウェブコーパスを構築した。