参考資料

100M程度のモデルをスクラッチ学習した事例があると参考になりそう

weblab 10bの予備実験(GPT-NeoXを使用)
300M程度のMistral(huggingfaceを使用)

大規模言語モデルを自作しよう！(Transformers+DeepSpeed+torch.compile+flash_attn2）
250M程度のMixtral(huggingfaceを使用)

Mixtral 250MのpretrainingからInstruction Tuningまで
GPT-NeoX(hatakeyama-sanのメモだった)

小さな大規模言語モデル(0.3B)をトレースで自家構築する際のメモ｜Kan Hatakeyama

設計すべき項目

データ
トークナイザ
モデル
事前学習
事後学習
評価