Team 天元突破_まず見る論文

主要参考文献です。

The RefinedWeb Dataset for Falcon LLM

RefinedWeb

厳格なフィルタリングと重複排除を行うことで高品質なデータセットを構築

解説記事

【RefinedWeb】The Pile よりも高性能なデータセット - Qiita

日本語 LLM 構築におけるコーパスクリーニングの網羅的評価

日本語の大規模言語モデル（LLM）の事前学習用コーパスのクリーニングがモデル性能向上に有効であることを示している。

N-gram言語モデルによる不自然な文書の除去
ルールベースによるフィルタリング
類似した文書を除去

日本語 LLM の事前学習コーパスにおける日本語に応じたクリーニングの効果を、事前学習・事後学習の実験を通じて検証した。基本処理に加えて様々なクリーニングを適用しコーパスの質を高めることは、計算資源が限られている場合はモデルの性能を向上させ、十分に計算資源がある場合でも性能を維持または改善させることを示した。

Swallow コーパス: 日本語大規模ウェブコーパス

Common Crawlのアーカイブから日本語ウェブコーパスを構築した。

Untitled