627BのSlimPajamaを人海戦術でダウンロードする
MODE | CHUNK | ファイル数 | 対応者 | 対応状況 | メモ |
---|---|---|---|---|---|
train | chunk1 | 5912 | 柴田 | 完了 | AWS3号機 |
chunk2 | 5912 | 柴田 | 完了 | AWS3号機 | |
chunk3 | 5920 | 柴田 | 完了 | AWS3号機 | |
chunk4 | 5918 | 柴田 | 完了 | AWS3号機 | |
chunk5 | 5934 | 柴田 | 完了 | AWS3号機 | |
chunk6 | 5916 | 柴田 | 完了 | AWS3号機 | |
chunk7 | 5907 | 柴田 | 完了 | AWS3号機 | |
chunk8 | 5922 | 柴田 | 完了 | AWS3号機 | |
chunk9 | 5921 | 柴田 | 完了 | AWS3号機 | |
chunk10 | 5913 | 柴田 | 完了 | AWS3号機 | |
validation | chunk1 | 6280 | 村上 | 完了 | ローカルPC |
chunk2 | 6279 | 村上 | 完了 | ローカルPC | |
chunk3 | 6287 | 村上 | 完了 | ローカルPC | |
chunk4 | 6285 | 村上 | 完了 | ローカルPC | |
chunk5 | 6302 | 村上 | 完了 | ローカルPC | |
test | chunk1 | 6283 | 坂本 | 完了 | ストレージ |
chunk2 | 6274 | 坂本 | 完了 | ストレージ | |
chunk3 | 6290 | 坂本 | 完了 | ストレージ | |
chunk4 | 6289 | 坂本 | 完了 | ストレージ | |
chunk5 | 6280 | 坂本 | 完了 | ストレージ | |
ダウンロードスクリプト slimpajama_download.bash
#!/bin/bash
cd ./download_zstd
Initialize the variable i
MODE=train # or validation, test
EVAL=train # or holdout
CHUNK=2
for ((i=0; i<=5912; i++))
do
url="<https://huggingface.co/datasets/cerebras/SlimPajama-627B/resolve/main/${MODE}/chunk${CHUNK}/example_${EVAL}_${i}.jsonl.zst>"
wget -p slimpajama_sample "$url"
done
cd ./huggingface.co/datasets/cerebras/SlimPajama-627B/resolve/main/${MODE}/chunk${CHUNK}
zstd -d *.zst
mkdir -p ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls
mv *.jsonl ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls/
<変更箇所>
MODE/EVAL/CHUNKを上記の分担表を見て修正
EVAL:validation or testの時はholdoutを指定
mkdir -p ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls
mv *.jsonl ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls/
8行目のi=0; i≤5912の箇所を各自のディスク容量にあわせて変更
最後の2行は出力先なので適宜修正
<スクリプト実行:標準出力版>
bash slimpajama_download.bash
<スクリプト実行:バックグラウンド実行版>
nohup bash slimpajama_download.bash > log.txt &
tail -f log.txt
バックグラウンド版の実行を推奨
tailコマンドでログを確認し、エラーが出ていないかを確認する
chunk1で検証した際に以下のエラーが発生していた