これは何?

LLM開発の進め方

LLM学習専用ライブラリを用いてベースライン開発

GPT-NeoXやMegatron-DeepSpeedのようなライブラリを使用する(標準コードは後者)

小規模(100M程度)で実験して有効なアイデアを絞り込み

小規模モデルで実験し、性能が改善するアイデアを絞り込む

Untitled

※ABEJAのブログがイメージしやすい

小規模で良いものが大規模でもうまくいくと信じる

Untitled