目的 事前学習データ・インストラクションデータの選定を行う
予想される作業 実際にCommonCrawlのデータの内容を把握し,使用するデータを決定する.適宜必要と判断されたデータの追加収集も行う.
あると嬉しい能力 Webクロール,PDF2text,youtube2textのタスクをこなせる
ロードマップ
砂場
ツール関連
収集データセット
SlimPajamaダウンロード計画
Proof-Pile-2ダウンロード計画
3/28時点の収集状況
※緑:完了、赤:対応中、紫:未着手