開発に使う可能性のあるLLM事前学習フレームワークをまとめました
<aside> ⚠️ 間違っている箇所があればどんどん修正して下さい!
</aside>
Megatro-DeepSpeed
GPT-NeoX
上記二つまたはどちらかを使いこなしていく方針が良いのではと考えています.役割分担なども含めて誰が担当するかやどちらか,または両方を行うかを決めていければと思います.
(上記のコードをフォークor標準コードで実装していく流れですかね?)
<aside> ✅ Megatron-DeepSpeedを使っていく方針
</aside>