事前学習データセット進捗

やったこと

チーム内外28名が共同して高速で進められています.

簡単なデータクリーニングのコードまでは作られており, 現在は既存のコーパスを作成された処理のコード化(コードがない場合) またその処理を一部データに適応した結果を評価したりしていました.

タスクの分担までは終了し, 現在はxmlから使えるライセンスのデータを抽出検討+全体で必要なクリーニング処理の洗い出しが進んでいます.

The PileとSlimPajamaなどデータセットの中身のきれいさの比較.

SlimPajamaデータセットのテキストの問題点を分析

The Stack v2データセットの確認と, 言語と使用データ数を指定して

The Stack v2のデータをダウンロードする関数の実装

OpenMathInstruct-1-1.8m-jaの調査がスタート.

分かったこと:

CC-MAIN-2023-50のsnapshotにおいて90000バッチ中30000バッチは終了

既存のコーパスを作成する上で使用された処理のコードはなかなか公開されていない