開発に使う可能性のあるLLM事前学習フレームワークをまとめました

<aside> ⚠️ 間違っている箇所があればどんどん修正して下さい!

</aside>

結論

上記二つまたはどちらかを使いこなしていく方針が良いのではと考えています.役割分担なども含めて誰が担当するかやどちらか,または両方を行うかを決めていければと思います.

(上記のコードをフォークor標準コードで実装していく流れですかね?)

<aside> ✅ Megatron-DeepSpeedを使っていく方針

</aside>

事前学習ができるライブラリ

Transformers

lit-llama

Megatron-LM

Megatron-DeepSpeed

NeMo-Megatron

GPT-NeoX

まとめ

その他の関連するライブラリ

DeepSpeed

Flash Attention