280b token程度を学習したモデル(多分。)
5/24のsnapshotを利用
hf_to_megatron_llama3-8b_0627.sh
詳細は以下のページ
llmjpのwetコーパスと、fineweb-eduを学習
合計1.2T token程度のところ、0.8 T Token程度を学習
7/10に謎のエラーが発生
原因究明は必要。
そろそろmoeに切り替えても良さそうだったので、学習を中断
wandbはこちら
モデル@iter 126000
https://huggingface.co/team-hatakeyama-phase2/pretrain_iter_0126000
scriptのpath