GCP環境にて以下2つのみ処理時間計測 検証ファイル:CC100-ja (6)3.28GB ※range3/cc100-ja at main の「train_6.parquetresults.filtering.jsonl」を使用 実施場所:/persistentshare/storage/team_kawagoshi/shiga/ucllm_nedo_prod/train/scripts/step2_pretrain_model
利用トークナイザー | ファイルサイズ | 処理時間 |
---|---|---|
ELYZA-japanese-Llama-2-7b | 約30MB | 29 sec |
約300MB | 198 sec | |
約3GB | 1870 sec (約31分) | |
Swallow-7b-instruct-hf | 約30MB | 29 sec |
約300MB | 177 sec | |
約3GB | 1656 sec(約28分) |
300MBから3GBの処理時間の差を見ると、概ねデータ量に処理時間は比例していると思慮。