phase1のデータ

280b token程度を学習したモデル(多分。)

5/24のsnapshotを利用

hf_to_megatron_llama3-8b_0627.sh

phase2 8bでの継続学習 6/27-7/10

詳細は以下のページ

8b xN 立ち上げメモ

データ一覧