100M程度のモデルをスクラッチ学習した事例があると参考になりそう
weblab 10bの予備実験(GPT-NeoXを使用)
300M程度のMistral(huggingfaceを使用)
大規模言語モデルを自作しよう!(Transformers+DeepSpeed+torch.compile+flash_attn2)
250M程度のMixtral(huggingfaceを使用)
Mixtral 250MのpretrainingからInstruction Tuningまで
GPT-NeoX(hatakeyama-sanのメモだった)
小さな大規模言語モデル(0.3B)をトレースで自家構築する際のメモ|Kan Hatakeyama