目的 事前学習データ・インストラクションデータの選定を行う

予想される作業 実際にCommonCrawlのデータの内容を把握し,使用するデータを決定する.適宜必要と判断されたデータの追加収集も行う.

あると嬉しい能力 Webクロール,PDF2text,youtube2textのタスクをこなせる

ロードマップ

砂場

ツール関連

収集データセット

SlimPajamaダウンロード計画

Proof-Pile-2ダウンロード計画

3/28時点の収集状況

※緑:完了、赤:対応中、紫:未着手

test.png