チーム内外28名が共同して高速で進められています.
簡単なデータクリーニングのコードまでは作られており, 現在は既存のコーパスを作成された処理のコード化(コードがない場合) またその処理を一部データに適応した結果を評価したりしていました.
タスクの分担までは終了し, 現在はxmlから使えるライセンス のデータを抽出検討+全体で必要なクリーニング処理の洗い出しが進んでいます.
The PileとSlimPajamaなどデータセットの中身のきれいさの比較.
SlimPajamaデータセットのテキストの問題点を分析
The Stack v2データセットの確認と, 言語と使用データ数を指定して
The Stack v2のデータをダウンロードする関数の実装
OpenMathInstruct-1-1.8m-jaの調査がスタート.
分かったこと:
CC-MAIN-2023-50のsnapshotにおいて90000バッチ中30000バッチは終了
既存のコーパスを作成する上で使用された処理のコードは なかなか公開されていない