627BのSlimPajamaを人海戦術でダウンロードする

MODE CHUNK ファイル数 対応者 対応状況 メモ
train chunk1 5912 柴田 完了 AWS3号機
chunk2 5912 柴田 完了 AWS3号機
chunk3 5920 柴田 完了 AWS3号機
chunk4 5918 柴田 完了 AWS3号機
chunk5 5934 柴田 完了 AWS3号機
chunk6 5916 柴田 完了 AWS3号機
chunk7 5907 柴田 完了 AWS3号機
chunk8 5922 柴田 完了 AWS3号機
chunk9 5921 柴田 完了 AWS3号機
chunk10 5913 柴田 完了 AWS3号機
validation chunk1 6280 村上 完了 ローカルPC
chunk2 6279 村上 完了 ローカルPC
chunk3 6287 村上 完了 ローカルPC
chunk4 6285 村上 完了 ローカルPC
chunk5 6302 村上 完了 ローカルPC
test chunk1 6283 坂本 完了 ストレージ
chunk2 6274 坂本 完了 ストレージ
chunk3 6290 坂本 完了 ストレージ
chunk4 6289 坂本 完了 ストレージ
chunk5 6280 坂本 完了 ストレージ

ダウンロードスクリプト slimpajama_download.bash

#!/bin/bash
cd ./download_zstd
Initialize the variable i
MODE=train # or validation, test
EVAL=train # or holdout
CHUNK=2

for ((i=0; i<=5912; i++))
do
url="<https://huggingface.co/datasets/cerebras/SlimPajama-627B/resolve/main/${MODE}/chunk${CHUNK}/example_${EVAL}_${i}.jsonl.zst>"
wget -p slimpajama_sample "$url"
done

cd ./huggingface.co/datasets/cerebras/SlimPajama-627B/resolve/main/${MODE}/chunk${CHUNK}
zstd -d *.zst
mkdir -p ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls
mv *.jsonl ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls/

<変更箇所>

MODE/EVAL/CHUNKを上記の分担表を見て修正

EVAL:validation or testの時はholdoutを指定

mkdir -p ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls
mv *.jsonl ~/output/download_zstd/${MODE}/chunk${CHUNK}/jsonls/

8行目のi=0; i≤5912の箇所を各自のディスク容量にあわせて変更

最後の2行は出力先なので適宜修正

<スクリプト実行:標準出力版>

bash slimpajama_download.bash

<スクリプト実行:バックグラウンド実行版>

nohup bash slimpajama_download.bash > log.txt &
tail -f log.txt

バックグラウンド版の実行を推奨

tailコマンドでログを確認し、エラーが出ていないかを確認する

chunk1で検証した際に以下のエラーが発生していた